F2 Plant Evolution: Sequenzen

Posts mit dem Label Sequenzen werden angezeigt. Alle Posts anzeigen

Samstag, 2. Mai 2015

Einen Neighbor-Joining Baum erstellen...

Die Erstellung eines Neighbor-Joining Baumes lässt sich in drei Schritte gliedern:

Erstellung eines Alignments
Berechnung einer Distanz Matrix
Erstellung eines Baumes

Alle Punkte können mit Hilfe von MEGA ausgeführt werden. Zur Erstellung des Alignments öffnet man eine entsprechende Sammlung von Sequenzen und lässt diese mit Clustal oder Muscle angleichen. Im Anschluss schaut man sich die Seitenbereiche an und schneidet diese entweder entsprechend zu, oder entfernt extrem kurze Sequenzen und schneidet anschließend zu. Hier muss man abwägen zwischen den Informationen, die verloren gehen wenn man die Ränder zuschneidet, und den Informationen die in einer entsprechend kurzen Sequenz stecken.
Die Schritte 2 und 3 werden von MEGA in einem durchgeführt. Wenn man mit dem Alignment zufrieden ist, exportiert man die Daten für eine phylogenetische Analyse.

Danach wechselt man zum Hauptfenster von MEGA und wählt unter Phylogeny "Construct/Test Neighbor-Joining Tree...".

Im nun offenen Fenster (Analysis Preferences) wählt man die gewünschten Einstellungen zur Berechnung der Distanz Matrix (siehe Phylogentische Analysen - Grundlagen von Bäumen) und definiert wie man die Phylogenie testen will. Zweiteres kann man mit gutem Gewissen mit einem Bootstrap Test (500 Replikate) durchführen.
Durch die Bestätigung der Einstellungen wird die Baumkonstruktion und der Test der Phylogenie gestartet.

Das Ergebnis lässt sich als MEGA Tree-Session speichern, um später weiter zu arbeiten, als Bild exportieren um es in einer Präsentation zu verwenden oder man kann an den Details der Darstellung arbeiten. Mehr dazu in einem anderen Post.

Thomas

Mittwoch, 22. April 2015

Bäume aus selbst gemachten Sequenzen

Hypothese: Ähnliche Sequenzen bilden in einem phylogentischen Baum einen Cluster.

Künstliche Sequenzen:

S1: AAAAAAAAAA
S2: TTTTTTTTTT
S3: TTTTTTTTTT
S4: AAAAAAAAAA

Neighbor-Joining (NJ) Baum 1:

NJ-Baum 1 (original)

NJ-Baum 1 (Topologie)

Der auf diesen Sequenzen basierende Neighbor-Joining (NJ) Baum 1 besteht aus zwei Cluster. Wie zu erwarten bilden S2 und S3 einen und S1 und S4 einen weiteren Cluster.
Im Vergleich zu den sehr unterschiedlichen Sequenzen wollen wir nun auf ein Beispiel mit sehr ähnlichen Sequenzen schauen.

S1: AAAAAAAAAA
S2: AAAAAAAAAT
S3: AAAAAAAAAT
S4: AAAAAAAAAA

NJ Baum 2:

NJ-Baum 2 (original)

NJ-Baum 2 (Topologie)

Bis auf die Distanz der beiden Zweige unterscheidet sich der Baum nicht vom vorherigen.

In den vorangegangenen Beispielen ist die proportionale Distanz (p-Distanz) zwischen den Sequenzen das Maß welches im Baum notiert wird. Im ersten Beispiel sind 10 der Basen von S1 und S4 anders als bei S2 und S3. Also 100 % unterschiedlich. Im Baum wird das erkenntlich an der Summe der Distanz der verbindenden Zweige (50 % = 0.5). Im zweiten Beispiel ist nur eine der 10 Basen unterschiedlich was 10 % (= 0.1) Distanz entspricht.

Was passiert, wenn wir nun innerhalb einer der beiden Cluster einen weiteren Unterschied einführen?

S1: AAAAAAAAAA
S2: AAAAAAAAAT
S3: AAAAAAAATT
S4: AAAAAAAAAA

NJ-Baum 3 (original)

NJ-Baum 3 (Topologie)

Die Distanz zwischen dem Cluster S1+S4 und S3 beträgt 0.1+0.1 = 0.2 (20 % = 2 Basen). Die Distanz zwischen S2 und S3 sowie S2 und dem Cluster S1+S4 beträgt je 10 % (0.1 = 1 Base).

to be continued...

Warum erstellen wir phylogenetische Bäume ... und so weiter ?

Im Praktikum geht es bei allen Projekten um...

Verwandtschaftliche Beziehungen der verwendeten Pflanzen
Unterscheidung der Pflanzen mittels morphologischer und molekularer Marker
Unterscheidung verschiedener Produkt Bestandteile

Neben der Morphologie, welche bei Produkten in vielen Fällen nicht für eine Unterscheidung geeignet ist, versuchen wir DNA Marker - bestimmte DNA Bereiche, die es bei allen beteiligten Arten gibt - dafür zu verwenden.

Wir verwenden bioinformatische Hilfsmittel aus zwei Gründen:

DNA Sequenzen im FASTA Format in einem Text Editor

Zum einen lassen sich Sequenzen - und Informationen über diese - in einer informativeren Form darstellen (z.B. farbliche Unterscheidung der Nucleotide).

Jalview und angeglichene DNA Sequenzen

Sliding-Window Ansicht des GC Gehalts von DNA

Zum anderen können Arbeitsschritte, die, wenn man diese manuell durchführen müsste, eine Unmenge an Zeit beanspruchen würden, automatisiert und somit effizienter ausgeführt werden (z.B. die Berechnung einer Distanz Matrix).

Distanz Matrix basierend auf matK Sequenzen von Ocimum

Ein weiterer Aspekt, der insbesondere mit den oben angesprochenen Themen innerhalb der Projekte zutun hat, ist die Visualisierung der Beziehungen der Sequenzen / Pflanzengruppen zueinander. Mit einem phylogenetischen Baum kann man darstellen, welche der Sequenzen näher miteinander verwandt sind (sich ähnlicher sind). Diese bilden sogenannte Cluster welche durch Knotenpunkte mit anderen Clustern verbunden sind.

Neighbor-Joining Bäume von Dracocephalum Sequenzen der Marker ITS2 und psbA-trnH

Eine andere Darstellungsform wäre zum Beispiel eine Principal Component Analyse (PCA), in der die Ähnlichkeiten in eine bestimmte Anzahl (n) an Faktoren zerlegt werden und in einem entsprechenden n-dimensionalen Raum dargestellt werden können.

Eine PCA bzw. MDS einer Ditanz Matrix, basierend auf psbA-trnH Sequenzen von Dracocephalum und anderen Lamiaceae.

Zusammenfassend kann man sagen, dass es bei der Verwendung von bioinformatischen Hilfsmitteln grundsätzlich darum geht, Daten auszuwerten und dabei die Interpretation zu erleichtern.

Ich hoffe das hilft etwas weiter :-)

Grüße
Thomas

Donnerstag, 16. April 2015

Arbeiten mit DNA Sequenzen - Variation in genomischen Bereichen

Variation in genomischen Bereichen

Inhalt

Sequenzen finden und herunterladen

Entfernen von redundanten Sequenzen

Visualisieren von Sequenzen

Im folgenden beschreibe ich einen Weg, wie man einen Protein kodierenden Bereich mit einem Spacer vergleichen könnte. Die beiden Bereiche, matK (maturase K) und psbA-trnH, befinden sich im Genom des Chloroplasten. Das Vorgehen besteht aus drei Teilen. Im ersten geht es darum Sequenzen dieser Bereiche zu finden und herunter zu laden, im zweiten wie man redundante Daten finden und entfernen kann, und im dritten wie man diese Sequenzen angleicht (to align) und visualisiert.

Sequenzen finden und herunterladen

Zuerst suche ich alle Sequenzen der Gattung Rheum.
Quelle der Sequenzinformationen: http://www.ncbi.nlm.nih.gov/nuccore/

Dazu wähle ich im DropDown Menü Taxonomy und gebe Rheum im Such Feld ein. Nachdem man die Suche bestätigt hat (ENTER oder Klick auf Search) erscheint – soweit in der Taxonomy Datenbank der Name gefunden wurde – der Treffer "Rheum, genus, eudicot" und zwei Links zu Nucleotid- und Proteinsequenzen. Nachdem man Nucleotide angeklickt hat erhält man eine Liste aller in der Nucleotid Datenbank gespeicherten Sequenzen der Gattung Rheum.

In der Liste tauchen verschiedene Bezeichnungen auf (trnH, psbA, matK), die sich auf unterschiedliche genomische Bereich, Gene bzw. Marker beziehen. Um nun eine Liste aller Sequenzen der Gattung Rheum eines bestimmten Markers zu erhalten, müssen wir die Such-Anfrage anpassen.

Damit suchen wir nach allen Sequenzen der Gattung Rheum (Organismus mit der NCBI Taxonomy ID 3620) die in ihrem Titel den Begriff "matK" enthalten.

An dieser Stelle will ich betonen, dass in vielen Fällen noch mehr gefiltert werden muss, um tatsächlich nur die Sequenzen eines vergleichbaren Bereichs zu erhalten. Z.B. gibt es Sequenzen, die in ihrem Titel "matK" in der Form von "matK-like" enthalten. Wenn man Sequenzen vom matK Gen und einem matK-like Bereich zusammen in einem Aligment anschaut, stellt man fest, dass diese sehr unterschiedlich sind, und zwei verschiedene Marker (genetische Regionen) darstellen.

Wir laden nun die Sequenzen über "Send to" als "File" in einem bestimmten Format herunter.

Ich benutze das Genbank Format und verwende anschließend ein Skript, dass die Art Namen überprüft und Synonyme mit den akzeptierten Namen ersetzt. Zusätzlich wird der Titel der Sequenzen insgesamt verkürzt und dadurch leichter lesbar gemacht.

Titel von Genbank:
gi|728631140|gb|KP058328.1| Rheum coreanum voucher TKM-1-000098 tRNA-His (trnH) gene, partial sequence; trnH-psbA intergenic spacer, complete sequence; and PsbA (psbA) gene, partial cds; chloroplast

Titel nach Konvertierung:
Rheum_coreanum|nPu|UR|Vou|KP058328|psbA-trnH

Zusätzliche Informationen im konvertierten Titel:
nPu = not published (die Sequenz wurde bei Genbank publiziert, ist aber nicht Teil einer publizierten Arbeit)
UR = Laut ThePlantList hat der taxonomische Name "Rheum coreanum" den Status "unresolved", ist also kein offiziell akzeptierter Name

Nachteil:
Das Skript verlässt sich darauf, dass man tatsächlich nur Sequenzen des gewünschten Bereichs heruntergeladen hat. Sollte wie oben erwähnt eine matK-like Sequenz mit dabei sein, würde diese auch unter "matK" geführt werden und möglicherweise zu Verwirrung führen.

Will man die Sequenzen direkt in MEGA oder JalView öffnen, muss man hier das Fasta Format wählen.

Aber nun zurück zum eigentlichen Thema. Wir haben nun von matK (einem kodierenden Bereich) einen Datensatz vorliegen und laden uns noch einen von einem nicht-kodierenden Bereich – einem intergenic Spacer – herunter. Die Suchanfrage verändern wir zu

txid3620[Organism] (psbA-trnH[title] OR trnH-psbA[title])

Damit suchen wir nach allen Rheum Sequenzen die im Titel entweder "psbA-trnH" oder "trnH-psbA" enthalten.

Leider ist es so, das es recht wenige Konventionen gibt, die einem das Leben bei der Suche und der Arbeit mit Sequenzen von Genbank leichter machen würden. Man muss davon ausgehen, dass Sequenzen je nach Lust und Laune entweder in der einen oder anderen Orientierung bei Genbank hinterlegt sind. Wenn man sich den Datensatz dann runter läd muss man die trnH-psbA Sequenzen erst noch umdrehen (reverscomplement), damit man sie mit den psbA-trnH Sequenzen vergleichen kann. Das oben erwähnte Skript ist mittlerweile darauf gefasst und dreht solche Sequenzen automatisch um.

Entfernen von redundanten Sequenzen

Jalview: http://www.jalview.org

In Jalview kann man die Sequenzen öffnen und redundante Daten entfernen.

Nicht vergessen den Datei-Typ auf Fasta zu stellen, ansonsten werden die Fasta Dateien nicht angezeigt!

Für den aktuellen Vergleich der Sequenzen zweier Marker kann man einfach alle Sequenzen markieren und 100% redundante Sequenzen löschen.

Alle schwarz markierten Sequenzen stellen redundante Information dar und können durch REMOVE entfernt werden. Anschließened speichert man den Datensatz wieder. Wer nicht will, dass JalView die Längenangabe (z.B. /1–422) an die Sequenztitel anhängt kann dies über die Preferences im Haupt-Fenster ändern.

Indem man das Häkchen bei Fasta entfernt, wird in diesem Format der Zusatz "/start-end" nicht angehängt.

Mit JalView lässt sich natürlich mehr anfangen als nur die redundanten Sequenzen zu entfernen. Wir wollen nun die Sequenzen angleichen (to align).

Anschließend – nachdem der Webservice den Auftrag bearbeitet hat – öffnet sich ein neues Fenster mit den angeglichenen Sequenzen.

Visualisieren von Sequenzen

In diesem neuen Fenster wollen wir die Nucleotide etwas einfärben.

Nucleotide klingt vernünftig…

und zeigt die Nucleotide in entsprechend unterschiedlichen Farben…

Identität klingt interessant…

und sieht deutlich anders aus als "Nucleotide". Hier wird nicht zwischen den verschiedenen Nucleotiden sondern zwischen konservierten / identischen Bereichen (dunkel blaue Spalten) und den weniger identischen Bereichen (hellblaue bis weiße Spalten) unterschieden.

Ein weiteres Feature, was vor allem bei großen Alignments sehr hilfreich sein kann, ist das "Overview Window"

Es zeigt das komplette Alignment (derzeit mit der Färbung nach Identität) in einem Fenster an.

Ich will das Thema nun mit einer Frage beenden:

Wenn ihr euch von Rheum das matK und psbA-trnH Alignment nebeneinander im JalView Overview Window anschaut, welches Phänomen tritt im matK Alignment nicht in Erscheinung und warum ?

Liebe Grüße

Thomas