Samstag, 18. April 2015

Arbeiten mit DNA Sequenzen - Rheum ITS ARMS design

Rheum ITS ARMS design

Im Folgenden will ich beschreiben, wie ich für Rheum Arten, für die Wan et al. 2014 mehrere ITS Versionen nachgewiesen haben, ARMS Primer entwerfe, um diese ITS Versionen mittels diagnostischer PCR nachzuweisen.

Sequenz Daten

Wie üblich lade ich die Sequenzen von Rheum über NCBI Nucleotides im Genbank Format herunter, verwende ein Skript um die taxonomischen Namen zu überprüfen und die Sequenz Titel zu kürzen.


Die resultierende Fasta Datei öffne ich mit JalView, entferne alle redundanten Sequenzen und benutze das Webservice Menü, um die Sequenzen mit Muscle zu alignen. 


Über die Annotation einer der Sequenzen (z.B. KF514641) besorge ich mir die 5.8S Sequenz um das Alignment in ITS1, 5.8S und ITS2 zu teilen. Da für ITS1 und ITS2 unterschiedlich viele Sequenz-Informationen vorliegen erscheint mir eine getrennte Betrachtung am sinnvollsten.
In JalView suche ich nach der 5.8S Sequenz (Select - Find oder Strg-F).

Die Sequenz darf nach dem Einfügen keine "Line Breaks" oder Leerzeichen enthalten. Dazu am besten das Such-Fenster vergrößern und an den auftauchenden Zeilenenden "entfernen" drücken, damit die Sequenz kontinuierlich wird. Bsp.:

Vorher:
AATTATGGTGTAGCCATAT
TATGATTTCCAATTATAC
ATTTAAGGCGCGAGCAA

Nachher:
AATTATGGTGTAGCCATATTATGATTTCCAATTATACATTTAAGGCGCGAGCAA

Anschließend markiere ich die Spalte links neben dem ersten Nucleotid der gefundenen Sequenz. Über das Edit Menü entferne ich alles was rechts von der markierten Spalte steht (remove right). 



Da nun manche Sequenzen keine Informationen (des ITS 1 Bereichs) enthalten entferne ich diese aus dem Alignment.



Eine der Sequenzen (AY207370) fällt hier aus dem Rahmen, da durch diese eine große Lücke in das Alignment gerissen wird (roter Kasten in der Abbildung). Wenn man diese Sequenz mit BLAST untersucht, stellt man fest, dass es sich hierbei höchstwahrscheinlich um eine ITS Sequenz eines Pilzes handelt, da die Treffer mit der höchsten Identität von Pilzsequenzen und nicht von anderen Rheum Arten stammen.


Nachdem diese Sequenz aus dem Alignment entfernt wurde führe ich über den Webservice nochmals eine Angleichung durch. 



Zuletzt entferne ich auf der linken Seite alle Spalten in denen Information fehlt. In der Regel schneide ich Alignments anhand der Primer Sequenzen zu. In diesem Fall ist das schwer, da die gängigen Primer (ITS5, ITS1) nicht zu finden sind. 


Bevor ich das Ergebnis speichere entferne ich nochmals redundante Daten und erstelle anschließend - als Übersicht - eine auf einer Ähnlichkeitsmatrix basierende PCA (Calculate - Principal Component Analysis). 


Das selbe mache ich für ITS2.




Nun stehen uns die Datensätze zur näheren Betrachtung und der Suche nach diagnostischen Positionen zur Verfügung.

Ziel-Arten

Für folgende Arten, von denen uns Referenzpflanzen zur Verfügung stehen, wurden 2 stark abweichende ITS Versionen nachgewiesen (in Klammer die Genbank Accession IDs):

Rheum rhabarbarum (KF258684,KF258685)
Rheum officinale (KF258695,KF258696)
Rheum tanguticum (KF258698 KF258699)
Rheum punilum (KF258702,KF258703)

Um diese mit einer PCR zu diagnostizieren wolle wir nun entsprechende ARMS Primer entwerfen.

to be continued...

Keine Kommentare:

Kommentar veröffentlichen