Posts mit dem Label Genbank werden angezeigt. Alle Posts anzeigen
Posts mit dem Label Genbank werden angezeigt. Alle Posts anzeigen

Samstag, 18. April 2015

Arbeiten mit DNA Sequenzen - Rheum ITS ARMS design

Rheum ITS ARMS design

Im Folgenden will ich beschreiben, wie ich für Rheum Arten, für die Wan et al. 2014 mehrere ITS Versionen nachgewiesen haben, ARMS Primer entwerfe, um diese ITS Versionen mittels diagnostischer PCR nachzuweisen.

Sequenz Daten

Wie üblich lade ich die Sequenzen von Rheum über NCBI Nucleotides im Genbank Format herunter, verwende ein Skript um die taxonomischen Namen zu überprüfen und die Sequenz Titel zu kürzen.


Die resultierende Fasta Datei öffne ich mit JalView, entferne alle redundanten Sequenzen und benutze das Webservice Menü, um die Sequenzen mit Muscle zu alignen. 


Über die Annotation einer der Sequenzen (z.B. KF514641) besorge ich mir die 5.8S Sequenz um das Alignment in ITS1, 5.8S und ITS2 zu teilen. Da für ITS1 und ITS2 unterschiedlich viele Sequenz-Informationen vorliegen erscheint mir eine getrennte Betrachtung am sinnvollsten.
In JalView suche ich nach der 5.8S Sequenz (Select - Find oder Strg-F).

Die Sequenz darf nach dem Einfügen keine "Line Breaks" oder Leerzeichen enthalten. Dazu am besten das Such-Fenster vergrößern und an den auftauchenden Zeilenenden "entfernen" drücken, damit die Sequenz kontinuierlich wird. Bsp.:

Vorher:
AATTATGGTGTAGCCATAT
TATGATTTCCAATTATAC
ATTTAAGGCGCGAGCAA

Nachher:
AATTATGGTGTAGCCATATTATGATTTCCAATTATACATTTAAGGCGCGAGCAA

Anschließend markiere ich die Spalte links neben dem ersten Nucleotid der gefundenen Sequenz. Über das Edit Menü entferne ich alles was rechts von der markierten Spalte steht (remove right). 



Da nun manche Sequenzen keine Informationen (des ITS 1 Bereichs) enthalten entferne ich diese aus dem Alignment.



Eine der Sequenzen (AY207370) fällt hier aus dem Rahmen, da durch diese eine große Lücke in das Alignment gerissen wird (roter Kasten in der Abbildung). Wenn man diese Sequenz mit BLAST untersucht, stellt man fest, dass es sich hierbei höchstwahrscheinlich um eine ITS Sequenz eines Pilzes handelt, da die Treffer mit der höchsten Identität von Pilzsequenzen und nicht von anderen Rheum Arten stammen.


Nachdem diese Sequenz aus dem Alignment entfernt wurde führe ich über den Webservice nochmals eine Angleichung durch. 



Zuletzt entferne ich auf der linken Seite alle Spalten in denen Information fehlt. In der Regel schneide ich Alignments anhand der Primer Sequenzen zu. In diesem Fall ist das schwer, da die gängigen Primer (ITS5, ITS1) nicht zu finden sind. 


Bevor ich das Ergebnis speichere entferne ich nochmals redundante Daten und erstelle anschließend - als Übersicht - eine auf einer Ähnlichkeitsmatrix basierende PCA (Calculate - Principal Component Analysis). 


Das selbe mache ich für ITS2.




Nun stehen uns die Datensätze zur näheren Betrachtung und der Suche nach diagnostischen Positionen zur Verfügung.

Ziel-Arten

Für folgende Arten, von denen uns Referenzpflanzen zur Verfügung stehen, wurden 2 stark abweichende ITS Versionen nachgewiesen (in Klammer die Genbank Accession IDs):

Rheum rhabarbarum (KF258684,KF258685)
Rheum officinale (KF258695,KF258696)
Rheum tanguticum (KF258698 KF258699)
Rheum punilum (KF258702,KF258703)

Um diese mit einer PCR zu diagnostizieren wolle wir nun entsprechende ARMS Primer entwerfen.

to be continued...

Donnerstag, 16. April 2015

Arbeiten mit DNA Sequenzen - Variation in genomischen Bereichen

Variation in genomischen Bereichen

Inhalt

  • Sequenzen finden und herunterladen

  • Entfernen von redundanten Sequenzen

  • Visualisieren von Sequenzen

Im folgenden beschreibe ich einen Weg, wie man einen Protein kodierenden Bereich mit einem Spacer vergleichen könnte. Die beiden Bereiche, matK (maturase K) und psbA-trnH,  befinden sich im Genom des Chloroplasten. Das Vorgehen besteht aus drei Teilen. Im ersten geht es darum Sequenzen dieser Bereiche zu finden und herunter zu laden, im zweiten wie man redundante Daten finden und entfernen kann, und im dritten wie man diese Sequenzen angleicht (to align) und visualisiert.

Sequenzen finden und herunterladen

Zuerst suche ich alle Sequenzen der Gattung Rheum.
Quelle der Sequenzinformationen: http://www.ncbi.nlm.nih.gov/nuccore/



Dazu wähle ich im DropDown Menü Taxonomy und gebe Rheum im Such Feld ein. Nachdem man die Suche bestätigt hat (ENTER oder Klick auf Search) erscheint –  soweit in der Taxonomy Datenbank der Name gefunden wurde –  der Treffer "Rheum, genus, eudicot" und zwei Links zu Nucleotid- und Proteinsequenzen. Nachdem man Nucleotide angeklickt hat erhält man eine Liste aller in der Nucleotid Datenbank gespeicherten Sequenzen der Gattung Rheum.



In der Liste tauchen verschiedene Bezeichnungen auf (trnH, psbA, matK), die sich auf unterschiedliche genomische Bereich, Gene bzw. Marker beziehen. Um nun eine Liste aller Sequenzen der Gattung Rheum eines bestimmten Markers zu erhalten, müssen wir die Such-Anfrage anpassen.



Damit suchen wir nach allen Sequenzen der Gattung Rheum (Organismus mit der NCBI Taxonomy ID 3620) die in ihrem Titel den Begriff "matK" enthalten.

An dieser Stelle will ich betonen, dass in vielen Fällen noch mehr gefiltert werden muss, um tatsächlich nur die Sequenzen eines vergleichbaren Bereichs zu erhalten. Z.B. gibt es Sequenzen, die in ihrem Titel "matK" in der Form von "matK-like" enthalten. Wenn man Sequenzen vom matK Gen und einem matK-like Bereich zusammen in einem Aligment anschaut, stellt man fest, dass diese sehr unterschiedlich sind, und zwei verschiedene Marker (genetische Regionen) darstellen. 

Wir laden nun die Sequenzen über "Send to" als "File" in einem bestimmten Format herunter.


Ich benutze das Genbank Format und verwende anschließend ein Skript, dass die Art Namen überprüft und Synonyme mit den akzeptierten Namen ersetzt. Zusätzlich wird der Titel der Sequenzen insgesamt verkürzt und dadurch leichter lesbar gemacht.

Titel von Genbank:
gi|728631140|gb|KP058328.1| Rheum coreanum voucher TKM-1-000098 tRNA-His (trnH) gene, partial sequence; trnH-psbA intergenic spacer, complete sequence; and PsbA (psbA) gene, partial cds; chloroplast

Titel nach Konvertierung:
Rheum_coreanum|nPu|UR|Vou|KP058328|psbA-trnH

Zusätzliche Informationen im konvertierten Titel:
nPu = not published (die Sequenz wurde bei Genbank publiziert, ist aber nicht Teil einer publizierten Arbeit)
UR = Laut ThePlantList hat der taxonomische Name "Rheum coreanum" den Status "unresolved", ist also kein offiziell akzeptierter Name

Nachteil:
Das Skript verlässt sich darauf, dass man tatsächlich nur Sequenzen des gewünschten Bereichs heruntergeladen hat. Sollte wie oben erwähnt eine matK-like Sequenz mit dabei sein, würde diese auch unter "matK" geführt werden und möglicherweise zu Verwirrung führen.

Will man die Sequenzen direkt in MEGA oder JalView öffnen, muss man hier das Fasta Format wählen.

Aber nun zurück zum eigentlichen Thema. Wir haben nun von matK (einem kodierenden Bereich) einen Datensatz vorliegen und laden uns noch einen von einem nicht-kodierenden Bereich – einem intergenic Spacer –  herunter. Die Suchanfrage verändern wir zu 

txid3620[Organism] (psbA-trnH[title] OR trnH-psbA[title])

Damit suchen wir nach allen Rheum Sequenzen die im Titel entweder "psbA-trnH" oder "trnH-psbA" enthalten.

Leider ist es so, das es recht wenige Konventionen gibt, die einem das Leben bei der Suche und der Arbeit mit Sequenzen von Genbank leichter machen würden. Man muss davon ausgehen, dass Sequenzen je nach Lust und Laune entweder in der einen oder anderen Orientierung bei Genbank hinterlegt sind. Wenn man sich den Datensatz dann runter läd muss man die trnH-psbA Sequenzen erst noch umdrehen (reverscomplement), damit man sie mit den psbA-trnH Sequenzen vergleichen kann. Das oben erwähnte Skript ist mittlerweile darauf gefasst und dreht solche Sequenzen automatisch um.

Entfernen von redundanten Sequenzen

Jalview: http://www.jalview.org

In Jalview kann man die Sequenzen öffnen und redundante Daten entfernen.



Nicht vergessen den Datei-Typ auf Fasta zu stellen, ansonsten werden die Fasta Dateien nicht angezeigt!

Für den aktuellen Vergleich der Sequenzen zweier Marker kann man einfach alle Sequenzen markieren und 100% redundante Sequenzen löschen.





 Alle schwarz markierten Sequenzen stellen redundante Information dar und können durch REMOVE entfernt werden. Anschließened speichert man den Datensatz wieder. Wer nicht will, dass JalView die Längenangabe (z.B. /1–422) an die Sequenztitel anhängt kann dies über die Preferences im Haupt-Fenster ändern.




Indem man das Häkchen bei Fasta entfernt, wird in diesem Format der Zusatz "/start-end" nicht angehängt.

Mit JalView lässt sich natürlich mehr anfangen als nur die redundanten Sequenzen zu entfernen. Wir wollen nun die Sequenzen angleichen (to align).



Anschließend –  nachdem der Webservice den Auftrag bearbeitet hat –  öffnet sich ein neues Fenster mit den angeglichenen Sequenzen.

Visualisieren von Sequenzen


In diesem neuen Fenster wollen wir die Nucleotide etwas einfärben.



Nucleotide klingt vernünftig…



und zeigt die Nucleotide in entsprechend unterschiedlichen Farben…






Identität klingt interessant…




und sieht deutlich anders aus als "Nucleotide". Hier wird nicht zwischen den verschiedenen Nucleotiden sondern zwischen konservierten / identischen Bereichen (dunkel blaue Spalten) und den weniger identischen Bereichen (hellblaue bis weiße Spalten) unterschieden.

Ein weiteres Feature, was vor allem bei großen Alignments sehr hilfreich sein kann, ist das "Overview Window"




Es zeigt das komplette Alignment (derzeit mit der Färbung nach Identität) in einem Fenster an.

Ich will das Thema nun mit einer Frage beenden:

Wenn ihr euch von Rheum das matK und psbA-trnH Alignment nebeneinander im JalView Overview Window anschaut, welches Phänomen tritt im matK Alignment nicht in Erscheinung und warum ?

Liebe Grüße

Thomas