F2 Plant Evolution: Baum

Posts mit dem Label Baum werden angezeigt. Alle Posts anzeigen

Samstag, 2. Mai 2015

Einen Neighbor-Joining Baum erstellen...

Die Erstellung eines Neighbor-Joining Baumes lässt sich in drei Schritte gliedern:

Erstellung eines Alignments
Berechnung einer Distanz Matrix
Erstellung eines Baumes

Alle Punkte können mit Hilfe von MEGA ausgeführt werden. Zur Erstellung des Alignments öffnet man eine entsprechende Sammlung von Sequenzen und lässt diese mit Clustal oder Muscle angleichen. Im Anschluss schaut man sich die Seitenbereiche an und schneidet diese entweder entsprechend zu, oder entfernt extrem kurze Sequenzen und schneidet anschließend zu. Hier muss man abwägen zwischen den Informationen, die verloren gehen wenn man die Ränder zuschneidet, und den Informationen die in einer entsprechend kurzen Sequenz stecken.
Die Schritte 2 und 3 werden von MEGA in einem durchgeführt. Wenn man mit dem Alignment zufrieden ist, exportiert man die Daten für eine phylogenetische Analyse.

Danach wechselt man zum Hauptfenster von MEGA und wählt unter Phylogeny "Construct/Test Neighbor-Joining Tree...".

Im nun offenen Fenster (Analysis Preferences) wählt man die gewünschten Einstellungen zur Berechnung der Distanz Matrix (siehe Phylogentische Analysen - Grundlagen von Bäumen) und definiert wie man die Phylogenie testen will. Zweiteres kann man mit gutem Gewissen mit einem Bootstrap Test (500 Replikate) durchführen.
Durch die Bestätigung der Einstellungen wird die Baumkonstruktion und der Test der Phylogenie gestartet.

Das Ergebnis lässt sich als MEGA Tree-Session speichern, um später weiter zu arbeiten, als Bild exportieren um es in einer Präsentation zu verwenden oder man kann an den Details der Darstellung arbeiten. Mehr dazu in einem anderen Post.

Thomas

Phylogentische Analysen - Grundlagen von Bäumen

Ein phylogenetischer Baum (Baum) repräsentiert Verwandtschaftsverhältnisse zwischen biologischen Einheiten basierend auf messbaren Eigenschaften. Anfänglich wurden in der numerischen Taxomonie morphologische Daten verwendet. Später folgten Sequenz-Informationen von Proteinen und DNA sowie Informationen aus DNA Fingerprint Analysen.

Die einfachste und gleichzeitig schnellste Methode, um einen Baum zu erstellen, ist mit Hilfe einer Distanz Matrix. Hierfür werden die einzelnen Sequenzen paarweise verglichen und jeweils ein Wert, der die Distanz beschreibt, festgehalten. In MEGA stehen Neighbor-Joining (NJ) und Unweighted Pair Group Method with Arithmetic Mean (UPGMA) als Distanz basierte Methoden zur Generierung eines phylogentischen Baumes zur Verfügung. Bei der Berechnung der entsprechenden Distanzen gibt es einfache Methoden und komplexere Modelle die man verwenden kann.

Zu den einfachen Methoden gehört, die Distanz als die Anzahl der Unterschiede (No. of differences) oder als proportionale Distanz (p-distance) zu bewerten. Die komplexeren Modelle (z.B. das Kimura 2-parameter Model) beziehen bei der Berechnung der Distanz verschiedene andere Faktoren mit ein. Zum Beispiel werden die DNA Veränderungen Transition und Transversion separat Betrachtet und können mit unterschiedlichen Raten belegt werden, was im Umkehrschluss dazu führt, dass die Distanz abhängig davon ist, wie viele Transversionen und Trasitionen im Vergleich vorkommen.
Neben der Wahl des Models bzw. der Methode, spielt auch der Umgang mit fehlenden Daten und Deletionen (gaps) eine nicht unwesentliche Rolle bei der Erstellung der Distanz Matrix. Zur Wahl steht, alle Positionen mit fehlenden Daten und Deletionen vor dem paarweise Vergleich aus dem Datensatz zu löschen (complete deletion), die entsprechenden Positionen nur beim Vergleich zweier Sequenzen zu ignorieren (pairwise deletion) oder Positionen deren Datengehalt unter einem bestimmten Maß liegt vor dem paarweise Vergleich aus dem Datensatz zu löschen (partial deletion).

Für unsere Zwecke - die DNA Diagnostik - spielen in erster Linie nur die tatsächlichen Unterschiede eine Rolle, weswegen wir auf die Verwendung eines komplexen Modells verzichten und die p-distance als Methode zur Erstellung der Distanz Matrix wählen. Beim Umgang mit fehlenden Date und Deletionen richten wir uns in der Regel nach der Art des Markers. Bei kodierenden Regionen (z.B. rbcL, matK), wo wir in der Regel keine Deletionen finden, verwenden wir complete deletion und bei Spacern (z.B. psbA-trnH) und Introns nutzen wir pairwise deletion um die entsprechende Information (InDels) nicht zu verlieren.

Voraussetzung für ein gutes Ergebnis ist allerdings ein gutes Alignment!

Wenn wir pairwise deletion verwenden, sollten das Alignment möglichst komplett sein (keine Positionen mit fehlenden Daten enthalten).

Simulationsdaten:

Ein kompletter Datensatz...

S1: ACTACTACTACTACT
S2: ACTACTACTACTATT
S3: ACTACTACTACTATT
S4: ACTACTACTACTAAT
S5: ACTACTACTACTAAT

NJ Baum auf S1 gewurzelt, pairwise deletion, kompletter Datensatz

Der selbe Datensatz mit fehlenden Daten...

S1: ACTACTACTACTACT
S2: ACTACTACTACTATT
S3: ACTACTACTACTATT
S4: --------TACTAAT
S5: ACTACTACTACTAAT

NJ Baum auf S1 gewurzelt, pairwise deletion, Datensatz mit fehlenden Informationen

Man sieht hier wie sich die Distanzen im Baum durch unvollständige Daten verändern und die "wahre" Situation verzerrt wird.

Bei complete deletion ist es besonders wichtig, dass keine sehr kurzen oder sehr schlechten Sequenzen (viele N's) enthalten sind, da sich das Löschen an der schlechstesten und kürzesten Sequenz orientiert und die Gefahr relevante Daten zu verlieren hoch ist.

So weit zu den wichtigsten Punkten...

Thomas

Mittwoch, 22. April 2015

Bäume aus selbst gemachten Sequenzen

Hypothese: Ähnliche Sequenzen bilden in einem phylogentischen Baum einen Cluster.

Künstliche Sequenzen:

S1: AAAAAAAAAA
S2: TTTTTTTTTT
S3: TTTTTTTTTT
S4: AAAAAAAAAA

Neighbor-Joining (NJ) Baum 1:

NJ-Baum 1 (original)

NJ-Baum 1 (Topologie)

Der auf diesen Sequenzen basierende Neighbor-Joining (NJ) Baum 1 besteht aus zwei Cluster. Wie zu erwarten bilden S2 und S3 einen und S1 und S4 einen weiteren Cluster.
Im Vergleich zu den sehr unterschiedlichen Sequenzen wollen wir nun auf ein Beispiel mit sehr ähnlichen Sequenzen schauen.

S1: AAAAAAAAAA
S2: AAAAAAAAAT
S3: AAAAAAAAAT
S4: AAAAAAAAAA

NJ Baum 2:

NJ-Baum 2 (original)

NJ-Baum 2 (Topologie)

Bis auf die Distanz der beiden Zweige unterscheidet sich der Baum nicht vom vorherigen.

In den vorangegangenen Beispielen ist die proportionale Distanz (p-Distanz) zwischen den Sequenzen das Maß welches im Baum notiert wird. Im ersten Beispiel sind 10 der Basen von S1 und S4 anders als bei S2 und S3. Also 100 % unterschiedlich. Im Baum wird das erkenntlich an der Summe der Distanz der verbindenden Zweige (50 % = 0.5). Im zweiten Beispiel ist nur eine der 10 Basen unterschiedlich was 10 % (= 0.1) Distanz entspricht.

Was passiert, wenn wir nun innerhalb einer der beiden Cluster einen weiteren Unterschied einführen?

S1: AAAAAAAAAA
S2: AAAAAAAAAT
S3: AAAAAAAATT
S4: AAAAAAAAAA

NJ-Baum 3 (original)

NJ-Baum 3 (Topologie)

Die Distanz zwischen dem Cluster S1+S4 und S3 beträgt 0.1+0.1 = 0.2 (20 % = 2 Basen). Die Distanz zwischen S2 und S3 sowie S2 und dem Cluster S1+S4 beträgt je 10 % (0.1 = 1 Base).

to be continued...