Montag, 4. Mai 2015

Sequenzierung - Ergebnisse der automatischen Verarbeitung

Die Ergebnisse einer 96-well Platten Sequenzierung werden über ein Perl Skript, dass auf Bio-Perl Algorithmen zurückgreift, ausgewertet. Folgende Arbeitsschritte sind dabei automatisiert:
  • Zuordnung von Akzessions ID und Taxon Namen zu jeder Sequenz
Beispiel Zuordnung von Akzessions ID und Taxon Name. Oben: Blau markiert, original Sequenz Titel von GATC; Unten: Ergebnis nach Zuordnung. Schema: Taxon Name|Akzession ID|Primer|Sequenzierungs ID
  • Erstellung von Sequenz-Sammlungen pro Marker
    • Alle Sequenzen einer Gattung
    • Konsensus Sequenzen einer Gattung
    • IUPAC-Konsensus Sequenzen einer Gattung
Sequenz-Sammlungen von Rheum und dem Marker psbA-trnH. _Cons = Konsensus Sequenzen; _IUPAC = IUPAC Konsensus Sequenzen; _Sequences = Alle Sequenzen.
  •  Erhebung von Statistischen Daten zur Einschätzung der Qualität der Sequenzierung
    • Gesamtzahl der Base Calls
    • Anzahl aller qualitativ hochwertigen Base Calls
    • Länge der längsten ununterbrochenen (ohne N) Base Call-Sequenz 
Beispiel Tabelle mit statistischen Daten zur Einschätzung der Qualität der Sequenzierung. RawSeqLength = Gesamtzahl der Base Calls; CropSeqLength = Länge der längsten ununterbrochenen (ohne N) Base Call Sequenz; SeqLength = Anzahl aller qualitativ hochwertigen Base Calls
 Mit diesen Informationen und der Größe der entsprechenden Fragmente kann man dann z.B. mit einer Excel/Calc Formel errechnen wie viel des Fragments sequenziert werden konnte.

Die Formel um den Coverage Wert zu erhalten - (I3/(K3/100))/100 - teilt die Länge des längsten zusammenhängenden Stückes durch den 1/100 Teil der Fragment Länge, um den Anteil des Fragments zu erhalten, der zusammenhängend sequenziert werden konnte. Der Wert wird dann durch hundert geteilt, damit die Zellen Formatierung "Prozent" den Wert entsprechend anzeigt (1 = 100%).

Viel Erfolg beim Auswerten
Grüße
Thomas

Keine Kommentare:

Kommentar veröffentlichen