F2 Plant Evolution: Bioinformatik

Posts mit dem Label Bioinformatik werden angezeigt. Alle Posts anzeigen

Dienstag, 10. Mai 2016

Optimierung von phylogenetischen Bäumen

Siehe auch...
...Einen Neighbor-Joining Baum erstellen...
...Phylogentische Analysen - Grundlagen von Bäumen...

Nachdem man einen phylogenetischen Baum mit z.B. MEGA berechnet hat, stellt sich die Frage, was man mit dem Baum zeigen will. Phylogenetische Bäume lassen sich in der Regel unterschiedlich darstellen. Zum einen gibt es grundsätzliche Darstellungen (MEGA unterscheidet hier zwischen klassisch, radiär und kreisförmig) und zum anderen ist vielleicht nicht jede Information im Baum relevant für die aktuelle Fragestellung.

Abb. 1: NJ-Phylogeny von Bambus, basierend auf rbcL Sequenzen. Klassisches Phylogram. Rohfassung.

In Abbildung 1 sehen wir die direkte Ausgabe (Rohfassung) eines phylogenetischen Baumes (NJ) der mit 1000 Bootstrap Replikaten getestet wurde. An den Knotenpunkten stehen Prozent Angaben. Diese geben wieder, wie oft die nachfolgenden Einheiten bei den Baum-Replikaten in dieser Zusammensetzung vor kamen. Je höher die Zahl, desto sicherer ist es, dass diese Aufteilung von Bedeutung ist. Im dargestellten Phylogram wird Wert auf die Darstellung der genetischen Distanz (in Form von Veränderungen innerhalb des untersuchten Sequenz-Bereichs) gelegt. Deswegen findet man in der Abbildung auch einen Maßstab. Die Länge von Knotenpunkt zu Knotenpunkt bzw. zum Ende eines Zweiges ist relativ zur genetischen Distanz. Im angeführten Beispiel entspricht die Länge des Maßstabes 0.2 % genetischer Distanz. Bei einer Sequenz Länge von 500 Nucleotiden wäre das 1 Nucleotid, dass im Vergleich anders ist.
Will man mit seinem Baum besonders auf die genetische Distanz hinweisen, würde es sich anbieten, diese für die Zweige anzuzeigen und die Bootstrap Werte auszublenden. Das lässt sich bewerkstelligen indem man über das View-Menü die Optionen auswählt und im Branch-Tab die Anzeige der Statistik/Frequenz abwählt und statt dessen die Zweig-Längen anzeigen lässt.

Abb. 2: Branch Tab, Tree Options Menü von MEGA

Zur Veranschaulichung der 3 Hauptgruppen innerhalb der Bambus Gewächse habe ich diverse Gruppierungen zusammengeklappt.

Abb. 3: Modifizierter Baum aus Abb. 1 mit Schwerpunkt auf die Distanzen zwischen den Bambus Hauptgruppen Arundinarieae, Bambuseae und Olyreae.

Will man mehr auf die Gruppierungen eingehen, empfiehlt es sich den Baum als Cladogram darzustellen und Verzweigungen nur dann zu berücksichtigen, wenn die zugrunde liegenden Daten diese mit einer gewissen Sicherheit unterstützen. In MEGA lässt sich das erreichen indem man einen kondensierten Baum erstellt (Compute - Condensed Tree):

Abb. 4: Modifizierter (kondensierter) Baum aus Abb. 1 mit Schwerpunkt auf Gruppierungen (hier innerhalb der Arundinarieae) die mit mehr als 50% der Bootstrap Replikate unterstützt werden.

Zuletzt will ich noch auf die Subtree Drawing Options hinweisen, mit denen man auf übergeordnete Gruppierungen hinweisen kann (Abb. 4, Arundinarieae).

Zusammen mit den Tree Options lässt sich so auf besondere Dinge hinweisen, die in der Rohfassung des Baumes nicht direkt ersichtlich sind.

Abb. 5: Modifizierter (kondensierter) Baum aus Abb. 1 mit Schwerpunkt auf Arundinarieae und Bambuseae einschließlich einer Blatt Charakteristik (40 X stereomikroskopische Aufnahme, getrocknertes Blatt, Unterseite).

Mehr Informationen, wie z.B. alternative Software für die Darstellung von phylogenetischen Bäumen findet man hier.

Grüße
Thomas

Dienstag, 5. Mai 2015

Sequenzierung - Ursachen für schlechte Ergebnisse

Wenn Ergebnis einmal nicht so toll aussehen, stellt man sich zwangsläufig die Frage, warum dem so ist. Um Antworten auf diese Frage zu finden und zu verstehen, sollte man das Prinzip der Sequenzierung verstanden haben:

Wikipedia Artikel zum Thema DNA Sequenzierung (siehe Abschnitt Didesoxymethode nach Sanger)

Folgende Inhalte geben Hilfestellung bei der Suche nach dem Grund für ein schlechtes Ergebnis:

Mittwoch, 22. April 2015

Warum erstellen wir phylogenetische Bäume ... und so weiter ?

Im Praktikum geht es bei allen Projekten um...

Verwandtschaftliche Beziehungen der verwendeten Pflanzen
Unterscheidung der Pflanzen mittels morphologischer und molekularer Marker
Unterscheidung verschiedener Produkt Bestandteile

Neben der Morphologie, welche bei Produkten in vielen Fällen nicht für eine Unterscheidung geeignet ist, versuchen wir DNA Marker - bestimmte DNA Bereiche, die es bei allen beteiligten Arten gibt - dafür zu verwenden.

Wir verwenden bioinformatische Hilfsmittel aus zwei Gründen:

DNA Sequenzen im FASTA Format in einem Text Editor

Zum einen lassen sich Sequenzen - und Informationen über diese - in einer informativeren Form darstellen (z.B. farbliche Unterscheidung der Nucleotide).

Jalview und angeglichene DNA Sequenzen

Sliding-Window Ansicht des GC Gehalts von DNA

Zum anderen können Arbeitsschritte, die, wenn man diese manuell durchführen müsste, eine Unmenge an Zeit beanspruchen würden, automatisiert und somit effizienter ausgeführt werden (z.B. die Berechnung einer Distanz Matrix).

Distanz Matrix basierend auf matK Sequenzen von Ocimum

Ein weiterer Aspekt, der insbesondere mit den oben angesprochenen Themen innerhalb der Projekte zutun hat, ist die Visualisierung der Beziehungen der Sequenzen / Pflanzengruppen zueinander. Mit einem phylogenetischen Baum kann man darstellen, welche der Sequenzen näher miteinander verwandt sind (sich ähnlicher sind). Diese bilden sogenannte Cluster welche durch Knotenpunkte mit anderen Clustern verbunden sind.

Neighbor-Joining Bäume von Dracocephalum Sequenzen der Marker ITS2 und psbA-trnH

Eine andere Darstellungsform wäre zum Beispiel eine Principal Component Analyse (PCA), in der die Ähnlichkeiten in eine bestimmte Anzahl (n) an Faktoren zerlegt werden und in einem entsprechenden n-dimensionalen Raum dargestellt werden können.

Eine PCA bzw. MDS einer Ditanz Matrix, basierend auf psbA-trnH Sequenzen von Dracocephalum und anderen Lamiaceae.

Zusammenfassend kann man sagen, dass es bei der Verwendung von bioinformatischen Hilfsmitteln grundsätzlich darum geht, Daten auszuwerten und dabei die Interpretation zu erleichtern.

Ich hoffe das hilft etwas weiter :-)

Grüße
Thomas

Seiten