Freitag, 29. Mai 2015

Was sind eigentlich Marker ?

Definition

Ein Marker im Sinne von DNA-Marker bezieht sich auf ein der DNA innewohnendes Phänomen, von dem aus man auf bestimmte Eigenschaft der Zelle, des Gewebes oder des gesamten Organismus schließen kann. Bei den Phänomenen handelt es sich um einfache Sequenz Unterschiede bis hin zu bestimmten Sequenz Motiven (z.B. Restriktionsschnittstellen, Protein kodierende Gene, Transposons, usw.). Zu den Eigenschaften auf die man schließen kann gehören z.B. genetische Krankheiten, Verwandtschaftsbeziehungen und Identitäten (taxonomische Zugehörigkeit).

Namen von DNA-Marker

DNA Marker sind z.B. der Restriction Fragment Length Polymorphism (RFLP), Amplified Fragement Length Polymorphism (AFLP), Random Amplified Polymorphic DNA (RAPD), Single Nucleotide Polymorphism (SNP), Short Sequence Repeats (SSR), Inter Simple Sequence Repeats (ISSR), Amplified Refractory Mutation System (ARMS), Ribulose-1,5-bisphosphate carboxylase oxygenase Large Subunit (rbcL), maturase K (matK), Internal Transcribed Spacer (ITS). usw.

Anonyme DNA Marker und DNA Sequenz-Marker

Die genannten Marker lassen sich grob in zwei Gruppen einteilen. In der einen befinden sich jene, die Phänomene innerhalb des gesamten Genoms unter die Lupe nehmen, und in der anderen jene, die sich auf bestimmte einzelne Bereiche beschränken. Erstere nennt man auch Anonyme DNA Marker, da weder die Position im Genom noch die DNA Sequenz der entsprechenden DNA Fragmente bekannt ist. Die zweite Gruppe beinhaltet entweder bestimmte Protein kodierende Bereiche wie z.B. rbcL und matK oder bestimmte genetische Spacer wie z.B. psbA-trnH und ITS.

Empfohlene Literatur

Arif, I. a., Bakir, M. a., Khan, H. a., Al Farhan, A. H., Al Homaidan, A. a., Bahkali, A. H., … Shobrak, M. (2010). A brief review of molecular techniques to assess plant diversity. International Journal of Molecular Sciences, 11, 2079–2096. doi:10.3390/ijms11052079

Agarwal, M., Shrivastava, N., & Padh, H. (2008). Advances in molecular marker techniques and their applications in plant sciences. Plant Cell Reports, 27, 617–631. doi:10.1007/s00299-008-0507-z

Warum verwenden wir gerade DEN Marker ?

Nachdem wir uns mit der allgemeinen Frage "Was ist eigentlich ein Marker?" auseinander gesetzt haben, wollen wir nun auf die Frage eingehen, warum man gerade den/die Marker verwendet und nicht andere. In anderen Worten, wir wollen wissen warum ein Marker besser dafür geeignet ist, Arten zu unterscheiden oder die Beziehungen bestimmter taxonomischer Einheiten zu untersuchen als ein anderer.

Marker in der DNA Diagnostik und phylogenetischen Untersuchungen

Für die Identifizierung taxonomischer Einheiten werden entweder bekannte Sequenz-Marker verwendet oder es werden über DNA Fingerprint Techniken neue (anonyme) DNA Bereiche als Marker herangezogen. Wir verwenden dafür bevorzugt bekannte Sequenz-Marker, da diese zum einen gut charakterisiert sind und zum anderen bereits Daten zur Verfügung stehen. Mit Hilfe dieser Informationen kann man sich im Vorfeld ein Bild darüber machen, ob der Bereich zur Unterscheidung der entsprechenden Art bzw. zum Vergleich entsprechender taxonomischer Einheiten geeignet ist oder eher nicht.

Was genau erwarten wir von unserem Marker ?

Wenn wir einen DNA Bereich verschiedener Pflanzen Arten amplifizieren wollen benötigen wir - für entsprechende Primer - Bereiche, die in all diesen Arten konserviert sind. Für die Unterscheidung der Arten benötigen wir einen Bereich, der dafür ausreichend Variation enthält.

Eine Aufstellung von DNA Bereichen (Zellkern, Chloroplast, Mitochondrium), die in verschiedenen Arbeiten für die Unterscheidung bzw. Identifizierung unterschiedlicher taxonomischer Gruppen (Population, Unterart, Art, Gattung, Familie, Ordnung) verwendet wurden. Aus Yip et al. 2007
Neben diesen grundsätzlichen Eigenschaften gibt es weitere, die im Zuge eines Projektes relevant werden können. Ein Beispiel bezieht sich auf den Schritt der Sequenzierung. Nicht jeder Bereiche lässt sich in allen taxonomischen Gruppen erfolgreich sequenzieren. Der Chloroplast Marker psbA-trnH lässt sich mit universellen Primern unter anderem in Dracocephalum problemlos amplifizieren und sequenzieren. In Dianthus dagegen lässt sich dieser Bereich zwar amplifizieren, aber bei der Sequenzierung stößt man auf das Problem von Mononucleotid Wiederholungen (poly-T).


Ein weiteres Beispiel betrifft den Bereich der ribosomalen DNA (rDNA) welcher im Kerngenom liegt und zwar in vielen Kopien an unterschiedlichen Stellen. In manchem Fällen, wie zum Beispiel bei einigen Rheum Arten [Xie et al. 2014], wurde festgestellt, dass diese Kopien sich voneinander unterscheiden, was dazu führt das man verschiedene Fragmente in einer PCR amplifiziert und eine einfache Sequenzierung der PCR nicht möglich ist.

Solche Regionen lassen sich in den entsprechenden taxonomischen Gruppen nur über Umwege und damit verbundenen Mehrkosten sequenzieren. Je nachdem um was es in einem Projekt geht, können solche "Probleme" aber auch eine zusätzliche Quelle für Informationen darstellen und ein Mehraufwand könnte sich lohnen.

Zusammenfassung

Bei der Marker Wahl haben wir zum einen grundsätzliche Faktoren zu beachten, die abhängig davon sind, welche Art von Beziehungen wir untersuchen wollen. Zum anderen müssen wir Faktoren beachten, die auf Erfahrung (vorhandene Messergebnisse - Untersuchungen) beruhen. Dies macht eine ausgiebige Literatur und Datenbank Recherche zu einer wichtigen Grundvoraussetzung für unsere Projekte.

Referenzen

Yip, P. Y., Chau, C. F., Mak, C. Y., & Kwan, H. S. (2007). DNA methods for identification of Chinese medicinal materials. Chinese Medicine, 2, 9. doi:10.1186/1749-8546-2-9

Ma, X., Xie, C., Guan, M., Xu, X., Miki, E., Takeda, O., … Chen, S. (2014). High Levels of Genetic Diversity within One Population of Rheum tanguticum on the Qinghai-Tibet Plateau have Implications for Germplasm Conservation. Pharmaceutical Crops, (5), 1–8.

Dienstag, 5. Mai 2015

Sequenzierung - Ursachen für schlechte Ergebnisse

Wenn Ergebnis einmal nicht so toll aussehen, stellt man sich zwangsläufig die Frage, warum dem so ist. Um Antworten auf diese Frage zu finden und zu verstehen, sollte man das Prinzip der Sequenzierung verstanden haben:
  • Wikipedia Artikel zum Thema DNA Sequenzierung (siehe Abschnitt Didesoxymethode nach Sanger)
Folgende Inhalte geben Hilfestellung bei der Suche nach dem Grund für ein schlechtes Ergebnis:

Montag, 4. Mai 2015

Sequenzierung - Ergebnisse der automatischen Verarbeitung

Die Ergebnisse einer 96-well Platten Sequenzierung werden über ein Perl Skript, dass auf Bio-Perl Algorithmen zurückgreift, ausgewertet. Folgende Arbeitsschritte sind dabei automatisiert:
  • Zuordnung von Akzessions ID und Taxon Namen zu jeder Sequenz
Beispiel Zuordnung von Akzessions ID und Taxon Name. Oben: Blau markiert, original Sequenz Titel von GATC; Unten: Ergebnis nach Zuordnung. Schema: Taxon Name|Akzession ID|Primer|Sequenzierungs ID
  • Erstellung von Sequenz-Sammlungen pro Marker
    • Alle Sequenzen einer Gattung
    • Konsensus Sequenzen einer Gattung
    • IUPAC-Konsensus Sequenzen einer Gattung
Sequenz-Sammlungen von Rheum und dem Marker psbA-trnH. _Cons = Konsensus Sequenzen; _IUPAC = IUPAC Konsensus Sequenzen; _Sequences = Alle Sequenzen.
  •  Erhebung von Statistischen Daten zur Einschätzung der Qualität der Sequenzierung
    • Gesamtzahl der Base Calls
    • Anzahl aller qualitativ hochwertigen Base Calls
    • Länge der längsten ununterbrochenen (ohne N) Base Call-Sequenz 
Beispiel Tabelle mit statistischen Daten zur Einschätzung der Qualität der Sequenzierung. RawSeqLength = Gesamtzahl der Base Calls; CropSeqLength = Länge der längsten ununterbrochenen (ohne N) Base Call Sequenz; SeqLength = Anzahl aller qualitativ hochwertigen Base Calls
 Mit diesen Informationen und der Größe der entsprechenden Fragmente kann man dann z.B. mit einer Excel/Calc Formel errechnen wie viel des Fragments sequenziert werden konnte.

Die Formel um den Coverage Wert zu erhalten - (I3/(K3/100))/100 - teilt die Länge des längsten zusammenhängenden Stückes durch den 1/100 Teil der Fragment Länge, um den Anteil des Fragments zu erhalten, der zusammenhängend sequenziert werden konnte. Der Wert wird dann durch hundert geteilt, damit die Zellen Formatierung "Prozent" den Wert entsprechend anzeigt (1 = 100%).

Viel Erfolg beim Auswerten
Grüße
Thomas

Samstag, 2. Mai 2015

Einen Neighbor-Joining Baum erstellen...

Die Erstellung eines Neighbor-Joining Baumes lässt sich in drei Schritte gliedern:
  1. Erstellung eines Alignments
  2. Berechnung einer Distanz Matrix
  3. Erstellung eines Baumes
Alle Punkte können mit Hilfe von MEGA ausgeführt werden. Zur Erstellung des Alignments öffnet man eine entsprechende Sammlung von Sequenzen und lässt diese mit Clustal oder Muscle angleichen. Im Anschluss schaut man sich die Seitenbereiche an und schneidet diese entweder entsprechend zu, oder entfernt extrem kurze Sequenzen und schneidet anschließend zu. Hier muss man abwägen zwischen den Informationen, die verloren gehen wenn man die Ränder zuschneidet, und den Informationen die in einer entsprechend kurzen Sequenz stecken.
Die Schritte 2 und 3 werden von MEGA in einem durchgeführt. Wenn man mit dem Alignment zufrieden ist, exportiert man die Daten für eine phylogenetische Analyse.
Danach wechselt man zum Hauptfenster von MEGA und wählt unter Phylogeny "Construct/Test Neighbor-Joining Tree...".
Im nun offenen Fenster (Analysis Preferences) wählt man die gewünschten Einstellungen zur Berechnung der Distanz Matrix (siehe Phylogentische Analysen - Grundlagen von Bäumen) und definiert wie man die Phylogenie testen will. Zweiteres kann man mit gutem Gewissen mit einem Bootstrap Test (500 Replikate) durchführen.
Durch die Bestätigung der Einstellungen wird die Baumkonstruktion und der Test der Phylogenie gestartet.

Das Ergebnis lässt sich als MEGA Tree-Session speichern, um später weiter zu arbeiten, als Bild exportieren um es in einer Präsentation zu verwenden oder man kann an den Details der Darstellung arbeiten. Mehr dazu in einem anderen Post.

Thomas

Phylogentische Analysen - Grundlagen von Bäumen

Ein phylogenetischer Baum (Baum) repräsentiert Verwandtschaftsverhältnisse zwischen biologischen Einheiten basierend auf messbaren Eigenschaften. Anfänglich wurden in der numerischen Taxomonie morphologische Daten verwendet. Später folgten Sequenz-Informationen von Proteinen und DNA sowie Informationen aus DNA Fingerprint Analysen.

Die einfachste und gleichzeitig schnellste Methode, um einen Baum zu erstellen, ist mit Hilfe einer Distanz Matrix. Hierfür werden die einzelnen Sequenzen paarweise verglichen und jeweils ein Wert, der die Distanz beschreibt, festgehalten. In MEGA stehen Neighbor-Joining (NJ) und Unweighted Pair Group Method with Arithmetic Mean (UPGMA) als Distanz basierte Methoden zur Generierung eines phylogentischen Baumes zur Verfügung. Bei der Berechnung der entsprechenden Distanzen gibt es einfache Methoden und komplexere Modelle die man verwenden kann.

Zu den einfachen Methoden gehört, die Distanz als die Anzahl der Unterschiede (No. of differences) oder als proportionale Distanz (p-distance) zu bewerten. Die komplexeren Modelle (z.B. das Kimura 2-parameter Model) beziehen bei der Berechnung der Distanz verschiedene andere Faktoren mit ein. Zum Beispiel werden die DNA Veränderungen Transition und Transversion separat Betrachtet und können mit unterschiedlichen Raten belegt werden, was im Umkehrschluss dazu führt, dass die Distanz abhängig davon ist, wie viele Transversionen und Trasitionen im Vergleich vorkommen.
Neben der Wahl des Models bzw. der Methode, spielt auch der Umgang mit fehlenden Daten und Deletionen (gaps) eine nicht unwesentliche Rolle bei der Erstellung der Distanz Matrix. Zur Wahl steht, alle Positionen mit fehlenden Daten und Deletionen vor dem paarweise Vergleich aus dem Datensatz zu löschen (complete deletion), die entsprechenden Positionen nur beim Vergleich zweier Sequenzen zu ignorieren (pairwise deletion) oder Positionen deren Datengehalt unter einem bestimmten Maß liegt vor dem paarweise Vergleich aus dem Datensatz zu löschen (partial deletion).
Für unsere Zwecke - die DNA Diagnostik - spielen in erster Linie nur die tatsächlichen Unterschiede eine Rolle, weswegen wir auf die Verwendung eines komplexen Modells verzichten und die p-distance als Methode zur Erstellung der Distanz Matrix wählen. Beim Umgang mit fehlenden Date und Deletionen richten wir uns in der Regel nach der Art des Markers. Bei kodierenden Regionen (z.B. rbcL, matK), wo wir in der Regel keine Deletionen finden, verwenden wir complete deletion und bei Spacern (z.B. psbA-trnH) und Introns nutzen wir pairwise deletion um die entsprechende Information (InDels) nicht zu verlieren.

Voraussetzung für ein gutes Ergebnis ist allerdings ein gutes Alignment!

Wenn wir pairwise deletion verwenden, sollten das Alignment möglichst komplett sein (keine Positionen mit fehlenden Daten enthalten).

Simulationsdaten:

Ein kompletter Datensatz...

S1: ACTACTACTACTACT
S2: ACTACTACTACTATT
S3: ACTACTACTACTATT
S4: ACTACTACTACTAAT
S5: ACTACTACTACTAAT

NJ Baum auf S1 gewurzelt, pairwise deletion, kompletter Datensatz
Der selbe Datensatz mit fehlenden Daten...

S1: ACTACTACTACTACT
S2: ACTACTACTACTATT
S3: ACTACTACTACTATT
S4: --------TACTAAT
S5: ACTACTACTACTAAT

NJ Baum auf S1 gewurzelt, pairwise deletion, Datensatz mit fehlenden Informationen
Man sieht hier wie sich die Distanzen im Baum durch unvollständige Daten verändern und die "wahre" Situation verzerrt wird.

Bei complete deletion ist es besonders wichtig, dass keine sehr kurzen oder sehr schlechten Sequenzen (viele N's) enthalten sind, da sich das Löschen an der schlechstesten und kürzesten Sequenz orientiert und die Gefahr relevante Daten zu verlieren hoch ist.

So weit zu den wichtigsten Punkten...

Thomas