Sonntag, 9. August 2015

Tools der Morphometrie - Morpheus et al.

Morpheus et al.

 "Morpheus et al. is a cross-platform, general purpose software package for morphometric analysis."
  • Slice, Dennis E., 2013. Morpheus et al., Java Edition. Department of Scientific Computing, The Florida State University, Tallahassee, Florida, U.S.A. Available from http:/morphlab.sc.fsu.edu/
  • Download

Tools der Morphometrie - MorphoJ

MorphoJ


Eine umfangreiche auf Java basierte Sammlung von Werkzeugen für die Auswertung von Morphometrischen Daten.

Features
  • Variation
    • Principal Component Analysis (PCA)
      "PCA is a useful tool to display variation within a sample and to characterize the main features of shape variation. If the data contain different subgroups, PCA can be used as an ordination method, but users should be aware that PCA is not optimized to find differences among groups (for that purpose, consider canonical variate analysis)."
    • Matrix Correlation
    • Contrast Covariance Matrices
    • Procrustes ANOVA
  • Covariation
  • Comparison
    • Canonical Variate Analysis
    • Discriminant function analysis
    • Phylogenetic comparisons
    • Vector comparisons between analyses
Referenz und Programm Download

Tools der Morphometrie - Lamina

Lamina

Bylesjö, M. et al., 2008. LAMINA: a tool for rapid quantification of leaf size and shape parameters. BMC Plant Biology, 8(1), p.82.
Available at: http://www.biomedcentral.com/1471-2229/8/82 .
  • Programm basiert auf JAVA und benötigt das Java Advanced Imaging (JAI) package. Dieses ist laut Angaben der Programmierer im Download enthalten und muss nicht separat installiert werden.
  • Download der Software  (Java) über SourceForge.


Lamina hat manchmal die Eigenart, nicht mehr weiter zu arbeiten.

Winows 7

Eine Möglichkeit, die bei mir zu einer deutlichen Verbesserung geführt hat, ist folgendes:
Die installierten Verknüpfungen (z.B. C:\ProgramData\Oracle\Java\javapath\javaw.exe -Xms100m -Xmx400m -Xss48m -jar "C:\Program Files (x86)\Lamina\Lamina.jar"), die man zum Ausführen von Lamina aufruft, sind so eingestellt, dass dem Programm 100 - 400 MB Speicher zur Verfügung stehen.

Über den entsprechenden Startmenü-Eintrag gelangt man zu den Eigenschaften der Verknüpfung und kann die Lamina zur Verfügung stehende Speicher Menge erhöhen.


Windows 7, Start Menü, Eigenschaften der Lamina Verknüpfung aufrufen

Eigenschaften der Lamina Verknüpfung ändern...
ACHTUNG: Das Feld enthält mehr Informationen als man auf den ersten Blick sieht. Feld anklicken und mit linker Pfeiltaste den Cursor bewegen.
-Xmx400m verändern zu -Xmx1G
Übernehmen bzw. OK anklicken und ab sofort sollte Lamina besser arbeiten.

Windows 8

Bei Windows 8 gelangt man über die Suche des Start Screens zu den Lamina Verknüpfungen. Über die rechten Maustaste lässt dich der Speicherort öffnen. Dort angekommen kann man wie bei Windows 7 über Eigenschaften die Verknüpfung verändern.

Windows 8, Start Screen Suche nach Lamina
Windows 8, Lamina Speicherort geöffnet, Eigenschaften der Lamina Verknüpfung aufrufen

Unter Windows 8 trat nach der Modifikation allerdings ein weiteres Problem auf. Dieses kann man durch Reduzierung der "Thread Stack Size" (-Xssn) von 48m auf 24m beheben. Dazu die Option -Xss48m auf -Xss24m verändern und bestätigen.

Samstag, 8. August 2015

Morphologie - Morphometrie

Die Evolution hat viele verschiedene morphologische Phänomene hervorgebracht, die wir sehen, messen und vergleichen können. Im folgenden werden Programme vorgestellt, mit denen man entsprechende Daten erzeugen und auswerten kann.

Übersicht

ProgrammFunktionDaten
ShapeErfassung und AuswertungKonturen
LeafAnalyserErfassung und AuswertungKonturen
LaminaErfassungDimensionen, Konturen
MorphoJAuswertungKonturen
Morphomatica?Konturen
Morpheus et al?Konturen
CLICErfassung und AuswertungKonturen

Shape

Iwata, H. & Ukai, Y., 2002. SHAPE: A Computer Program Package for Quantitative Evaluation of Biological Shapes Based on Elliptic Fourier Descriptors. Journal of Heredity, 93(5), pp.384–385.
Available at: http://jhered.oxfordjournals.org/content/93/5/384.short .
  • Es handelt sich hierbei um ein Programm zur Analyse von geschlossenen Konturen.
  • Die im Paper angegebene URL , welche zum Programm Download führen sollte, funktioniert nicht. Über eine Google Suche nach "SHAPE Iwata" gelangt man aber zur derzeitigen Web Seite  auf der man das Programm runter laden kann.

LeafAnalyser

Weight, C., Parnham, D. & Waites, R., 2008. TECHNICAL ADVANCE: LeafAnalyser: a computational method for rapid and large-scale analyses of leaf shape variation. The Plant Journal, 53(3), pp.578–586.
Available at: http://dx.doi.org/10.1111/j.1365-313X.2007.03330.x .
  • Die im Paper angegebene URL , welche zum Programm Download führen sollte, funktioniert nicht. Es hat den Anschein, als wäre die Seite gehackt worden. Man findet das Programm aber bei SourceForge.

Morphomatica

"Morphomatica ist ein benutzerfreundliches Computerprogramm, dass zur morphometrischen Analyse der Konturen von Ostrakodenschalen entworfen wurde. Es wurde im Zeitraum von 2001 – 2007 von J. Linhart, W. Brauneis und W. Neubauer (Universität Salzburg) unter Verwendung der biologischen Grundlagen von Dan. L. Danielopol (Österreichische Akademie der Wissenschaften) entwickelt. Die Version Morphomatica 1.6.1 eignet sich besonders für vergleichende Studien von merkmalsarmen Ostrakodenschalen."

Collection of Landmark for Identification and Characterization (CLIC)


Freitag, 7. August 2015

Daten beschreiben und darstellen mit R und Co

Für die Arbeit mit DNA Sequenz Daten haben wir bereits Programme wie MEGA oder Jalview kennengelernt. Im folgenden sollen nun Programme vorgestellt werden, die etwas weniger speziell sind und mit anderen Daten, wie z.B. den Ausgaben von LAMINA, Smartgrain und ähnlichen Programmen umgehen können.

Tabellenkalkulation

Mit MS Excel oder dem kostenlosen OpenOffice Calc können wir ohne großen Aufwand verschiedene Diagramm Typen erstellen.
Für den etwas anspruchsvolleren Daten Jongleur lohnt es sich aber nach anderen Möglichkeiten Ausschau zu halten.

R - kostenloser Alleskönner für ... Nerds ?

R ist eine Programmiersprache für das statistische Arbeiten. Daten lassen sich in diversen Formaten einlesen, umwandeln, beschreiben, testen und darstellen. Seit 2011 gibt es für R neue Kleider, R Studio ist eine grafische Nutzeroberfläche für R.
Wer mit R (Studio) arbeiten will installiert sich R und anschließend R Studio.

How-to und Tutorials

Origin Professional

Als Student und Mitarbeiter des KIT hat man die Möglichkeit die Datenanalyse- und Grafiksoftware Origin Professional kostenlos zu nutzen. Die Professional Version beinhaltet dabei ebenfalls Multivariate Methoden wie z.B. die Principal Component Analyse.

Nach dem kostenlosen Kauf, stehen einem 3 Downloads zur Verfügung (2 mal MSI Dateien und eine EXE Datei). Mein Versuch das Programm über eine der MSI Dateien zu installieren, schlug fehl, bzw. führte dazu, dass ich beim Start des Programmes darauf hingewiesen wurde, dass die Lizenzdatei fehlt. Die Installation über die EXE Datei dagegen führte zum Erfolg. Man benötigt zur Installation den Lizensschlüssel, die Adresse und den Port des Lizensservers. Alle drei Angaben erhält man dem kostenlosen Kauf per Email zugeschickt.

Der Umgang mit Daten ist in Origin ähnlich wie in Excel und Calc. Man arbeitet mit Tabellen und der Maus anstatt mit Funktionsaufrufen über die Tatstatur. Diagramme können direkt formatiert werden. Origin bietet auch die Möglichkeit ala R mit Scripten bestimmte Arbeiten zu automatisieren.

How-to und Tutorials
To be extended...

Montag, 3. August 2015

Warum man ein Experiment wie etwas Unbekanntes behandeln sollte...

...oder über Reproduktion und Qualität von Experimenten...

Am heutigen Tage kam die Frage auf, warum es nicht ausreicht das Ergebnis einer Gelelektrophorese in einem Bild "mit zufälligen Parametern" festzuhalten.

Das Experiment

Es wurden Schimmel Proben genommen und damit eine PCR (ITS) durchgeführt. Eine der Fragen die wir beantworten wollten war, ob wir ITS ohne DNA zu isolieren amplifizieren können.

Es ist vollkommen richtig, dass wir diese Frage mit einem Gelbild beantworten können, auf dem wir "ITS Banden" sehen. Dabei spielt es keine Rolle mit welchem Zoom oder welcher Belichtung das Foto aufgenommen wurde, solange wir eine Amplifikation erkennen und gleichzeitig die negativ Kontrolle bestätigt, dass die Amplifikation auf der Anwesenheit von DNA basiert, die nicht schon im Mastermix vorhanden war.

Soweit so gut. Kann man noch mehr mit dem Ergebnis anfangen ?

Reproduzierbarkeit

Jedes Experiment bzw. das Ergebnis eines solchen sollte als etwas Unbekanntes behandelt werden. Es kann durchaus sein, dass wir uns zum Zeitpunkt des Experiments nicht über alle Fragen im klaren sind, die wir mit diesem Experiment beantworten wollen bzw. können. Für eine solche Situation, wie auch für diejenige, in der wir tatsächlich nur eine Frage stellen und beantworten können, ist es gute Praxis, wenn man dieses Experiment so durchführt, dass man es reproduzieren kann. Um das zu können benötigt die entsprechende Person alle Parameter des Experiments welche für das Ergebnis verantwortlich sind. Die Dokumentation der Ergebnisse ist dabei ein Punkt wo es eigentlich keine Variation geben sollte. Leider ist es aber so, dass dieser Punkt regelmäßig vernachlässigt wird, und dadurch Ergebnisse nur sehr schwer miteinander vergleichbar sind, bzw. eine Reproduktion nicht möglich ist.

Datenqualität

Neben der Reproduzierbarkeit geht es darum, Ergebnisse mit der höchst möglichen Qualität zu erfassen. Bei Fotos spielt dabei die Auflösung eine wesentliche Rolle. Im Bezug zu den Gel Bildern sollte man versuchen den Platz effizient zu nutzen. Bei doppelten Gelen macht es Sinn, zwei Aufnahmen zu machen. Eins vom oberen und eins vom unteren Teil. Das Ergebnis sind zwei Fotos mit hoher Auflösung statt eins mit reduzierter. Der zusätzliche Aufwand beschränkt sich dabei auf das Verschieben des Blaulichtschirms.

Mehr als nur eine Frage

Im beschriebenen Experiment ging es neben der Frage ob eine Amplifikation möglich ist, auch darum zu sehen, welche Fragment Größen zu beobachten sind, wie stark die Amplifikation jeweils war und ob eventuell mehr als eine Bande pro Probe zu beobachten ist. Solche Fragen lassen sich generell besser beantworten wenn man Daten in hoher Qualität hat.

Fazit

Bald möglichst eine konsistente Dokumentation von Experimenten zu etablieren, ist ein immer wiederkehrender guter Rat. Die Zeit die jeder von uns, ob Student oder Betreuer, investiert, ist am wertvollsten wenn wir etwas damit erreichen. Eine konsistente Dokumentation stellt sicher, dass die Daten ohne große Umstände mit anderen verglichen werden können und somit viel eher dazu beitragen Fortschritt in einem Projekt zu erzeugen.

Zum Schluss noch ein paar...

Beispiele

Zwei 17-Taschen Gele übereinander. Die Höhe ist fast vollständig ausgenutzt.
Ein 17-Taschen Gel. Weder die Höhe noch die Breite sind ausgenutzt. Der Parameter "Lage des Gels" wäre hier: unten abschließend, etwas mehr links als rechts. Schwer zu reproduzieren.

Ein 17-Taschen Gel. Im Gegensatz zum Bild mit zwei Gelen wird bei der Aufnahme eines Gels die volle Breite des Kamera Sensors ausgenutzt. Insgesamt sind die Banden deutlicher zu sehen. Das Ergebnis wird in maximaler Auflösung erfasst und kann mit dem festen Parameter (Ladeschema, 17-Taschen Gel, schließt links und rechts ab) 1:1 reproduziert und verglichen werden.

23-Taschen Gel, Belichtungszeit 1.52 Sekunden

23-Taschen Gel, Belichtungszeit 1 Sekunde






Angenommen bei den beiden Bilder handelt es sich zum einen um das original Experiment und zum anderen um eine Wiederholung. Können wir anhand der beiden Fotos mit Sicherheit sagen, dass das Experiment erfolgreich wiederholt wurde ?
Angenommen bei den beiden Bildern handelt es sich zum einen um das 1. Experiment und zum anderen um ein modifiziertes Experiment. Können wir anhand der beiden Fotos mit Sicherheit sagen, dass die Modifikation einen bestimmten Effekt hatte ?

In beiden Situationen ist es schwer bis unmöglich eine klare Aussage zu den Fragen zu treffen. Wenn wir ein Experiment wiederholen, dann sollten ALLE Parameter gleich sein. Auch die der Daten Dokumentation. Vor allem wenn wir mit PCR Konditionen experimentieren, sollte neben dem Parameter den wir gezielt testen, kein anderer für Variation des Ergebnis sorgen. Daraus folgt, dass wir in diesen Situationen bei der Dokumentation die Belichtungszeit entsprechend unverändert verwenden.

Es gibt noch viele andere Faktoren, die selbst nichts mit der Dokumentation zu tun haben, aber ebenso zu unerwünschten Variationen in einem Experiment führen. Je früher wir lernen, welche Faktoren das sind, um so früher können wir verhindern, dass diese die Ergebnisse unserer Experimente beeinflussen. Erst anschließend können wir die eigentlichen Fragen beantworten.

Grüße
Thomas

Freitag, 29. Mai 2015

Was sind eigentlich Marker ?

Definition

Ein Marker im Sinne von DNA-Marker bezieht sich auf ein der DNA innewohnendes Phänomen, von dem aus man auf bestimmte Eigenschaft der Zelle, des Gewebes oder des gesamten Organismus schließen kann. Bei den Phänomenen handelt es sich um einfache Sequenz Unterschiede bis hin zu bestimmten Sequenz Motiven (z.B. Restriktionsschnittstellen, Protein kodierende Gene, Transposons, usw.). Zu den Eigenschaften auf die man schließen kann gehören z.B. genetische Krankheiten, Verwandtschaftsbeziehungen und Identitäten (taxonomische Zugehörigkeit).

Namen von DNA-Marker

DNA Marker sind z.B. der Restriction Fragment Length Polymorphism (RFLP), Amplified Fragement Length Polymorphism (AFLP), Random Amplified Polymorphic DNA (RAPD), Single Nucleotide Polymorphism (SNP), Short Sequence Repeats (SSR), Inter Simple Sequence Repeats (ISSR), Amplified Refractory Mutation System (ARMS), Ribulose-1,5-bisphosphate carboxylase oxygenase Large Subunit (rbcL), maturase K (matK), Internal Transcribed Spacer (ITS). usw.

Anonyme DNA Marker und DNA Sequenz-Marker

Die genannten Marker lassen sich grob in zwei Gruppen einteilen. In der einen befinden sich jene, die Phänomene innerhalb des gesamten Genoms unter die Lupe nehmen, und in der anderen jene, die sich auf bestimmte einzelne Bereiche beschränken. Erstere nennt man auch Anonyme DNA Marker, da weder die Position im Genom noch die DNA Sequenz der entsprechenden DNA Fragmente bekannt ist. Die zweite Gruppe beinhaltet entweder bestimmte Protein kodierende Bereiche wie z.B. rbcL und matK oder bestimmte genetische Spacer wie z.B. psbA-trnH und ITS.

Empfohlene Literatur

Arif, I. a., Bakir, M. a., Khan, H. a., Al Farhan, A. H., Al Homaidan, A. a., Bahkali, A. H., … Shobrak, M. (2010). A brief review of molecular techniques to assess plant diversity. International Journal of Molecular Sciences, 11, 2079–2096. doi:10.3390/ijms11052079

Agarwal, M., Shrivastava, N., & Padh, H. (2008). Advances in molecular marker techniques and their applications in plant sciences. Plant Cell Reports, 27, 617–631. doi:10.1007/s00299-008-0507-z

Warum verwenden wir gerade DEN Marker ?

Nachdem wir uns mit der allgemeinen Frage "Was ist eigentlich ein Marker?" auseinander gesetzt haben, wollen wir nun auf die Frage eingehen, warum man gerade den/die Marker verwendet und nicht andere. In anderen Worten, wir wollen wissen warum ein Marker besser dafür geeignet ist, Arten zu unterscheiden oder die Beziehungen bestimmter taxonomischer Einheiten zu untersuchen als ein anderer.

Marker in der DNA Diagnostik und phylogenetischen Untersuchungen

Für die Identifizierung taxonomischer Einheiten werden entweder bekannte Sequenz-Marker verwendet oder es werden über DNA Fingerprint Techniken neue (anonyme) DNA Bereiche als Marker herangezogen. Wir verwenden dafür bevorzugt bekannte Sequenz-Marker, da diese zum einen gut charakterisiert sind und zum anderen bereits Daten zur Verfügung stehen. Mit Hilfe dieser Informationen kann man sich im Vorfeld ein Bild darüber machen, ob der Bereich zur Unterscheidung der entsprechenden Art bzw. zum Vergleich entsprechender taxonomischer Einheiten geeignet ist oder eher nicht.

Was genau erwarten wir von unserem Marker ?

Wenn wir einen DNA Bereich verschiedener Pflanzen Arten amplifizieren wollen benötigen wir - für entsprechende Primer - Bereiche, die in all diesen Arten konserviert sind. Für die Unterscheidung der Arten benötigen wir einen Bereich, der dafür ausreichend Variation enthält.

Eine Aufstellung von DNA Bereichen (Zellkern, Chloroplast, Mitochondrium), die in verschiedenen Arbeiten für die Unterscheidung bzw. Identifizierung unterschiedlicher taxonomischer Gruppen (Population, Unterart, Art, Gattung, Familie, Ordnung) verwendet wurden. Aus Yip et al. 2007
Neben diesen grundsätzlichen Eigenschaften gibt es weitere, die im Zuge eines Projektes relevant werden können. Ein Beispiel bezieht sich auf den Schritt der Sequenzierung. Nicht jeder Bereiche lässt sich in allen taxonomischen Gruppen erfolgreich sequenzieren. Der Chloroplast Marker psbA-trnH lässt sich mit universellen Primern unter anderem in Dracocephalum problemlos amplifizieren und sequenzieren. In Dianthus dagegen lässt sich dieser Bereich zwar amplifizieren, aber bei der Sequenzierung stößt man auf das Problem von Mononucleotid Wiederholungen (poly-T).


Ein weiteres Beispiel betrifft den Bereich der ribosomalen DNA (rDNA) welcher im Kerngenom liegt und zwar in vielen Kopien an unterschiedlichen Stellen. In manchem Fällen, wie zum Beispiel bei einigen Rheum Arten [Xie et al. 2014], wurde festgestellt, dass diese Kopien sich voneinander unterscheiden, was dazu führt das man verschiedene Fragmente in einer PCR amplifiziert und eine einfache Sequenzierung der PCR nicht möglich ist.

Solche Regionen lassen sich in den entsprechenden taxonomischen Gruppen nur über Umwege und damit verbundenen Mehrkosten sequenzieren. Je nachdem um was es in einem Projekt geht, können solche "Probleme" aber auch eine zusätzliche Quelle für Informationen darstellen und ein Mehraufwand könnte sich lohnen.

Zusammenfassung

Bei der Marker Wahl haben wir zum einen grundsätzliche Faktoren zu beachten, die abhängig davon sind, welche Art von Beziehungen wir untersuchen wollen. Zum anderen müssen wir Faktoren beachten, die auf Erfahrung (vorhandene Messergebnisse - Untersuchungen) beruhen. Dies macht eine ausgiebige Literatur und Datenbank Recherche zu einer wichtigen Grundvoraussetzung für unsere Projekte.

Referenzen

Yip, P. Y., Chau, C. F., Mak, C. Y., & Kwan, H. S. (2007). DNA methods for identification of Chinese medicinal materials. Chinese Medicine, 2, 9. doi:10.1186/1749-8546-2-9

Ma, X., Xie, C., Guan, M., Xu, X., Miki, E., Takeda, O., … Chen, S. (2014). High Levels of Genetic Diversity within One Population of Rheum tanguticum on the Qinghai-Tibet Plateau have Implications for Germplasm Conservation. Pharmaceutical Crops, (5), 1–8.

Dienstag, 5. Mai 2015

Sequenzierung - Ursachen für schlechte Ergebnisse

Wenn Ergebnis einmal nicht so toll aussehen, stellt man sich zwangsläufig die Frage, warum dem so ist. Um Antworten auf diese Frage zu finden und zu verstehen, sollte man das Prinzip der Sequenzierung verstanden haben:
  • Wikipedia Artikel zum Thema DNA Sequenzierung (siehe Abschnitt Didesoxymethode nach Sanger)
Folgende Inhalte geben Hilfestellung bei der Suche nach dem Grund für ein schlechtes Ergebnis:

Montag, 4. Mai 2015

Sequenzierung - Ergebnisse der automatischen Verarbeitung

Die Ergebnisse einer 96-well Platten Sequenzierung werden über ein Perl Skript, dass auf Bio-Perl Algorithmen zurückgreift, ausgewertet. Folgende Arbeitsschritte sind dabei automatisiert:
  • Zuordnung von Akzessions ID und Taxon Namen zu jeder Sequenz
Beispiel Zuordnung von Akzessions ID und Taxon Name. Oben: Blau markiert, original Sequenz Titel von GATC; Unten: Ergebnis nach Zuordnung. Schema: Taxon Name|Akzession ID|Primer|Sequenzierungs ID
  • Erstellung von Sequenz-Sammlungen pro Marker
    • Alle Sequenzen einer Gattung
    • Konsensus Sequenzen einer Gattung
    • IUPAC-Konsensus Sequenzen einer Gattung
Sequenz-Sammlungen von Rheum und dem Marker psbA-trnH. _Cons = Konsensus Sequenzen; _IUPAC = IUPAC Konsensus Sequenzen; _Sequences = Alle Sequenzen.
  •  Erhebung von Statistischen Daten zur Einschätzung der Qualität der Sequenzierung
    • Gesamtzahl der Base Calls
    • Anzahl aller qualitativ hochwertigen Base Calls
    • Länge der längsten ununterbrochenen (ohne N) Base Call-Sequenz 
Beispiel Tabelle mit statistischen Daten zur Einschätzung der Qualität der Sequenzierung. RawSeqLength = Gesamtzahl der Base Calls; CropSeqLength = Länge der längsten ununterbrochenen (ohne N) Base Call Sequenz; SeqLength = Anzahl aller qualitativ hochwertigen Base Calls
 Mit diesen Informationen und der Größe der entsprechenden Fragmente kann man dann z.B. mit einer Excel/Calc Formel errechnen wie viel des Fragments sequenziert werden konnte.

Die Formel um den Coverage Wert zu erhalten - (I3/(K3/100))/100 - teilt die Länge des längsten zusammenhängenden Stückes durch den 1/100 Teil der Fragment Länge, um den Anteil des Fragments zu erhalten, der zusammenhängend sequenziert werden konnte. Der Wert wird dann durch hundert geteilt, damit die Zellen Formatierung "Prozent" den Wert entsprechend anzeigt (1 = 100%).

Viel Erfolg beim Auswerten
Grüße
Thomas

Samstag, 2. Mai 2015

Einen Neighbor-Joining Baum erstellen...

Die Erstellung eines Neighbor-Joining Baumes lässt sich in drei Schritte gliedern:
  1. Erstellung eines Alignments
  2. Berechnung einer Distanz Matrix
  3. Erstellung eines Baumes
Alle Punkte können mit Hilfe von MEGA ausgeführt werden. Zur Erstellung des Alignments öffnet man eine entsprechende Sammlung von Sequenzen und lässt diese mit Clustal oder Muscle angleichen. Im Anschluss schaut man sich die Seitenbereiche an und schneidet diese entweder entsprechend zu, oder entfernt extrem kurze Sequenzen und schneidet anschließend zu. Hier muss man abwägen zwischen den Informationen, die verloren gehen wenn man die Ränder zuschneidet, und den Informationen die in einer entsprechend kurzen Sequenz stecken.
Die Schritte 2 und 3 werden von MEGA in einem durchgeführt. Wenn man mit dem Alignment zufrieden ist, exportiert man die Daten für eine phylogenetische Analyse.
Danach wechselt man zum Hauptfenster von MEGA und wählt unter Phylogeny "Construct/Test Neighbor-Joining Tree...".
Im nun offenen Fenster (Analysis Preferences) wählt man die gewünschten Einstellungen zur Berechnung der Distanz Matrix (siehe Phylogentische Analysen - Grundlagen von Bäumen) und definiert wie man die Phylogenie testen will. Zweiteres kann man mit gutem Gewissen mit einem Bootstrap Test (500 Replikate) durchführen.
Durch die Bestätigung der Einstellungen wird die Baumkonstruktion und der Test der Phylogenie gestartet.

Das Ergebnis lässt sich als MEGA Tree-Session speichern, um später weiter zu arbeiten, als Bild exportieren um es in einer Präsentation zu verwenden oder man kann an den Details der Darstellung arbeiten. Mehr dazu in einem anderen Post.

Thomas

Phylogentische Analysen - Grundlagen von Bäumen

Ein phylogenetischer Baum (Baum) repräsentiert Verwandtschaftsverhältnisse zwischen biologischen Einheiten basierend auf messbaren Eigenschaften. Anfänglich wurden in der numerischen Taxomonie morphologische Daten verwendet. Später folgten Sequenz-Informationen von Proteinen und DNA sowie Informationen aus DNA Fingerprint Analysen.

Die einfachste und gleichzeitig schnellste Methode, um einen Baum zu erstellen, ist mit Hilfe einer Distanz Matrix. Hierfür werden die einzelnen Sequenzen paarweise verglichen und jeweils ein Wert, der die Distanz beschreibt, festgehalten. In MEGA stehen Neighbor-Joining (NJ) und Unweighted Pair Group Method with Arithmetic Mean (UPGMA) als Distanz basierte Methoden zur Generierung eines phylogentischen Baumes zur Verfügung. Bei der Berechnung der entsprechenden Distanzen gibt es einfache Methoden und komplexere Modelle die man verwenden kann.

Zu den einfachen Methoden gehört, die Distanz als die Anzahl der Unterschiede (No. of differences) oder als proportionale Distanz (p-distance) zu bewerten. Die komplexeren Modelle (z.B. das Kimura 2-parameter Model) beziehen bei der Berechnung der Distanz verschiedene andere Faktoren mit ein. Zum Beispiel werden die DNA Veränderungen Transition und Transversion separat Betrachtet und können mit unterschiedlichen Raten belegt werden, was im Umkehrschluss dazu führt, dass die Distanz abhängig davon ist, wie viele Transversionen und Trasitionen im Vergleich vorkommen.
Neben der Wahl des Models bzw. der Methode, spielt auch der Umgang mit fehlenden Daten und Deletionen (gaps) eine nicht unwesentliche Rolle bei der Erstellung der Distanz Matrix. Zur Wahl steht, alle Positionen mit fehlenden Daten und Deletionen vor dem paarweise Vergleich aus dem Datensatz zu löschen (complete deletion), die entsprechenden Positionen nur beim Vergleich zweier Sequenzen zu ignorieren (pairwise deletion) oder Positionen deren Datengehalt unter einem bestimmten Maß liegt vor dem paarweise Vergleich aus dem Datensatz zu löschen (partial deletion).
Für unsere Zwecke - die DNA Diagnostik - spielen in erster Linie nur die tatsächlichen Unterschiede eine Rolle, weswegen wir auf die Verwendung eines komplexen Modells verzichten und die p-distance als Methode zur Erstellung der Distanz Matrix wählen. Beim Umgang mit fehlenden Date und Deletionen richten wir uns in der Regel nach der Art des Markers. Bei kodierenden Regionen (z.B. rbcL, matK), wo wir in der Regel keine Deletionen finden, verwenden wir complete deletion und bei Spacern (z.B. psbA-trnH) und Introns nutzen wir pairwise deletion um die entsprechende Information (InDels) nicht zu verlieren.

Voraussetzung für ein gutes Ergebnis ist allerdings ein gutes Alignment!

Wenn wir pairwise deletion verwenden, sollten das Alignment möglichst komplett sein (keine Positionen mit fehlenden Daten enthalten).

Simulationsdaten:

Ein kompletter Datensatz...

S1: ACTACTACTACTACT
S2: ACTACTACTACTATT
S3: ACTACTACTACTATT
S4: ACTACTACTACTAAT
S5: ACTACTACTACTAAT

NJ Baum auf S1 gewurzelt, pairwise deletion, kompletter Datensatz
Der selbe Datensatz mit fehlenden Daten...

S1: ACTACTACTACTACT
S2: ACTACTACTACTATT
S3: ACTACTACTACTATT
S4: --------TACTAAT
S5: ACTACTACTACTAAT

NJ Baum auf S1 gewurzelt, pairwise deletion, Datensatz mit fehlenden Informationen
Man sieht hier wie sich die Distanzen im Baum durch unvollständige Daten verändern und die "wahre" Situation verzerrt wird.

Bei complete deletion ist es besonders wichtig, dass keine sehr kurzen oder sehr schlechten Sequenzen (viele N's) enthalten sind, da sich das Löschen an der schlechstesten und kürzesten Sequenz orientiert und die Gefahr relevante Daten zu verlieren hoch ist.

So weit zu den wichtigsten Punkten...

Thomas

Mittwoch, 22. April 2015

Bäume aus selbst gemachten Sequenzen

Hypothese: Ähnliche Sequenzen bilden in einem phylogentischen Baum einen Cluster.

Künstliche Sequenzen:

S1: AAAAAAAAAA
S2: TTTTTTTTTT
S3: TTTTTTTTTT
S4: AAAAAAAAAA


Neighbor-Joining (NJ) Baum 1:
NJ-Baum 1 (original)
NJ-Baum 1 (Topologie)
Der auf diesen Sequenzen basierende Neighbor-Joining (NJ) Baum 1 besteht aus zwei Cluster. Wie zu erwarten bilden S2 und S3 einen und S1 und S4 einen weiteren Cluster.
Im Vergleich zu den sehr unterschiedlichen Sequenzen wollen wir nun auf ein Beispiel mit sehr ähnlichen Sequenzen schauen.

S1: AAAAAAAAAA
S2: AAAAAAAAAT
S3: AAAAAAAAAT
S4: AAAAAAAAAA

NJ Baum 2:
NJ-Baum 2 (original)
NJ-Baum 2 (Topologie)
Bis auf die Distanz der beiden Zweige unterscheidet sich der Baum nicht vom vorherigen.

In den vorangegangenen Beispielen ist die proportionale Distanz (p-Distanz) zwischen den Sequenzen das Maß welches im Baum notiert wird. Im ersten Beispiel sind 10 der Basen von S1 und S4 anders als bei S2 und S3. Also 100 % unterschiedlich. Im Baum wird das erkenntlich an der Summe der Distanz der verbindenden Zweige (50 % = 0.5). Im zweiten Beispiel ist nur eine der 10 Basen unterschiedlich was 10 % (= 0.1) Distanz entspricht.

Was passiert, wenn wir nun innerhalb einer der beiden Cluster einen weiteren Unterschied einführen?

S1: AAAAAAAAAA
S2: AAAAAAAAAT
S3: AAAAAAAATT
S4: AAAAAAAAAA
NJ-Baum 3 (original)
NJ-Baum 3 (Topologie)
Die Distanz zwischen dem Cluster S1+S4 und S3 beträgt 0.1+0.1 = 0.2 (20 % = 2 Basen). Die Distanz zwischen S2 und S3 sowie S2 und dem Cluster S1+S4 beträgt je 10 % (0.1 = 1 Base).

to be continued...

Warum erstellen wir phylogenetische Bäume ... und so weiter ?

Im Praktikum geht es bei allen Projekten um...
  1. Verwandtschaftliche Beziehungen der verwendeten Pflanzen
  2. Unterscheidung der Pflanzen mittels morphologischer und molekularer Marker
  3. Unterscheidung verschiedener Produkt Bestandteile
Neben der Morphologie, welche bei Produkten in vielen Fällen nicht für eine Unterscheidung geeignet ist, versuchen wir DNA Marker - bestimmte DNA Bereiche, die es bei allen beteiligten Arten gibt - dafür zu verwenden.

Wir verwenden bioinformatische Hilfsmittel aus zwei Gründen:

DNA Sequenzen im FASTA Format in einem Text Editor
Zum einen lassen sich Sequenzen - und Informationen über diese - in einer informativeren Form darstellen (z.B. farbliche Unterscheidung der Nucleotide).

Jalview und angeglichene DNA Sequenzen

Sliding-Window Ansicht des GC Gehalts von DNA


Zum anderen können Arbeitsschritte, die, wenn man diese manuell durchführen müsste, eine Unmenge an Zeit beanspruchen würden, automatisiert und somit effizienter ausgeführt werden (z.B. die Berechnung einer Distanz Matrix).

Distanz Matrix basierend auf matK Sequenzen von Ocimum
Ein weiterer Aspekt, der insbesondere mit den oben angesprochenen Themen innerhalb der Projekte zutun hat, ist die Visualisierung der Beziehungen der Sequenzen / Pflanzengruppen zueinander. Mit einem phylogenetischen Baum kann man darstellen, welche der Sequenzen näher miteinander verwandt sind (sich ähnlicher sind). Diese bilden sogenannte Cluster welche durch Knotenpunkte mit anderen Clustern verbunden sind.
Neighbor-Joining Bäume von Dracocephalum Sequenzen der Marker ITS2 und psbA-trnH

Eine andere Darstellungsform wäre zum Beispiel eine Principal Component Analyse (PCA), in der die Ähnlichkeiten in eine bestimmte Anzahl (n) an Faktoren zerlegt werden und in einem entsprechenden n-dimensionalen Raum dargestellt werden können.
Eine PCA bzw. MDS einer Ditanz Matrix, basierend auf psbA-trnH Sequenzen von Dracocephalum und anderen Lamiaceae.
Zusammenfassend kann man sagen, dass es bei der Verwendung von bioinformatischen Hilfsmitteln grundsätzlich darum geht, Daten auszuwerten und dabei die Interpretation zu erleichtern.

Ich hoffe das hilft etwas weiter :-)

Grüße
Thomas


Samstag, 18. April 2015

Arbeiten mit DNA Sequenzen - Rheum ITS ARMS design

Rheum ITS ARMS design

Im Folgenden will ich beschreiben, wie ich für Rheum Arten, für die Wan et al. 2014 mehrere ITS Versionen nachgewiesen haben, ARMS Primer entwerfe, um diese ITS Versionen mittels diagnostischer PCR nachzuweisen.

Sequenz Daten

Wie üblich lade ich die Sequenzen von Rheum über NCBI Nucleotides im Genbank Format herunter, verwende ein Skript um die taxonomischen Namen zu überprüfen und die Sequenz Titel zu kürzen.


Die resultierende Fasta Datei öffne ich mit JalView, entferne alle redundanten Sequenzen und benutze das Webservice Menü, um die Sequenzen mit Muscle zu alignen. 


Über die Annotation einer der Sequenzen (z.B. KF514641) besorge ich mir die 5.8S Sequenz um das Alignment in ITS1, 5.8S und ITS2 zu teilen. Da für ITS1 und ITS2 unterschiedlich viele Sequenz-Informationen vorliegen erscheint mir eine getrennte Betrachtung am sinnvollsten.
In JalView suche ich nach der 5.8S Sequenz (Select - Find oder Strg-F).

Die Sequenz darf nach dem Einfügen keine "Line Breaks" oder Leerzeichen enthalten. Dazu am besten das Such-Fenster vergrößern und an den auftauchenden Zeilenenden "entfernen" drücken, damit die Sequenz kontinuierlich wird. Bsp.:

Vorher:
AATTATGGTGTAGCCATAT
TATGATTTCCAATTATAC
ATTTAAGGCGCGAGCAA

Nachher:
AATTATGGTGTAGCCATATTATGATTTCCAATTATACATTTAAGGCGCGAGCAA

Anschließend markiere ich die Spalte links neben dem ersten Nucleotid der gefundenen Sequenz. Über das Edit Menü entferne ich alles was rechts von der markierten Spalte steht (remove right). 



Da nun manche Sequenzen keine Informationen (des ITS 1 Bereichs) enthalten entferne ich diese aus dem Alignment.



Eine der Sequenzen (AY207370) fällt hier aus dem Rahmen, da durch diese eine große Lücke in das Alignment gerissen wird (roter Kasten in der Abbildung). Wenn man diese Sequenz mit BLAST untersucht, stellt man fest, dass es sich hierbei höchstwahrscheinlich um eine ITS Sequenz eines Pilzes handelt, da die Treffer mit der höchsten Identität von Pilzsequenzen und nicht von anderen Rheum Arten stammen.


Nachdem diese Sequenz aus dem Alignment entfernt wurde führe ich über den Webservice nochmals eine Angleichung durch. 



Zuletzt entferne ich auf der linken Seite alle Spalten in denen Information fehlt. In der Regel schneide ich Alignments anhand der Primer Sequenzen zu. In diesem Fall ist das schwer, da die gängigen Primer (ITS5, ITS1) nicht zu finden sind. 


Bevor ich das Ergebnis speichere entferne ich nochmals redundante Daten und erstelle anschließend - als Übersicht - eine auf einer Ähnlichkeitsmatrix basierende PCA (Calculate - Principal Component Analysis). 


Das selbe mache ich für ITS2.




Nun stehen uns die Datensätze zur näheren Betrachtung und der Suche nach diagnostischen Positionen zur Verfügung.

Ziel-Arten

Für folgende Arten, von denen uns Referenzpflanzen zur Verfügung stehen, wurden 2 stark abweichende ITS Versionen nachgewiesen (in Klammer die Genbank Accession IDs):

Rheum rhabarbarum (KF258684,KF258685)
Rheum officinale (KF258695,KF258696)
Rheum tanguticum (KF258698 KF258699)
Rheum punilum (KF258702,KF258703)

Um diese mit einer PCR zu diagnostizieren wolle wir nun entsprechende ARMS Primer entwerfen.

to be continued...

Donnerstag, 16. April 2015

Arbeiten mit DNA Sequenzen - Variation in genomischen Bereichen

Variation in genomischen Bereichen

Inhalt

  • Sequenzen finden und herunterladen

  • Entfernen von redundanten Sequenzen

  • Visualisieren von Sequenzen

Im folgenden beschreibe ich einen Weg, wie man einen Protein kodierenden Bereich mit einem Spacer vergleichen könnte. Die beiden Bereiche, matK (maturase K) und psbA-trnH,  befinden sich im Genom des Chloroplasten. Das Vorgehen besteht aus drei Teilen. Im ersten geht es darum Sequenzen dieser Bereiche zu finden und herunter zu laden, im zweiten wie man redundante Daten finden und entfernen kann, und im dritten wie man diese Sequenzen angleicht (to align) und visualisiert.

Sequenzen finden und herunterladen

Zuerst suche ich alle Sequenzen der Gattung Rheum.
Quelle der Sequenzinformationen: http://www.ncbi.nlm.nih.gov/nuccore/



Dazu wähle ich im DropDown Menü Taxonomy und gebe Rheum im Such Feld ein. Nachdem man die Suche bestätigt hat (ENTER oder Klick auf Search) erscheint –  soweit in der Taxonomy Datenbank der Name gefunden wurde –  der Treffer "Rheum, genus, eudicot" und zwei Links zu Nucleotid- und Proteinsequenzen. Nachdem man Nucleotide angeklickt hat erhält man eine Liste aller in der Nucleotid Datenbank gespeicherten Sequenzen der Gattung Rheum.



In der Liste tauchen verschiedene Bezeichnungen auf (trnH, psbA, matK), die sich auf unterschiedliche genomische Bereich, Gene bzw. Marker beziehen. Um nun eine Liste aller Sequenzen der Gattung Rheum eines bestimmten Markers zu erhalten, müssen wir die Such-Anfrage anpassen.



Damit suchen wir nach allen Sequenzen der Gattung Rheum (Organismus mit der NCBI Taxonomy ID 3620) die in ihrem Titel den Begriff "matK" enthalten.

An dieser Stelle will ich betonen, dass in vielen Fällen noch mehr gefiltert werden muss, um tatsächlich nur die Sequenzen eines vergleichbaren Bereichs zu erhalten. Z.B. gibt es Sequenzen, die in ihrem Titel "matK" in der Form von "matK-like" enthalten. Wenn man Sequenzen vom matK Gen und einem matK-like Bereich zusammen in einem Aligment anschaut, stellt man fest, dass diese sehr unterschiedlich sind, und zwei verschiedene Marker (genetische Regionen) darstellen. 

Wir laden nun die Sequenzen über "Send to" als "File" in einem bestimmten Format herunter.


Ich benutze das Genbank Format und verwende anschließend ein Skript, dass die Art Namen überprüft und Synonyme mit den akzeptierten Namen ersetzt. Zusätzlich wird der Titel der Sequenzen insgesamt verkürzt und dadurch leichter lesbar gemacht.

Titel von Genbank:
gi|728631140|gb|KP058328.1| Rheum coreanum voucher TKM-1-000098 tRNA-His (trnH) gene, partial sequence; trnH-psbA intergenic spacer, complete sequence; and PsbA (psbA) gene, partial cds; chloroplast

Titel nach Konvertierung:
Rheum_coreanum|nPu|UR|Vou|KP058328|psbA-trnH

Zusätzliche Informationen im konvertierten Titel:
nPu = not published (die Sequenz wurde bei Genbank publiziert, ist aber nicht Teil einer publizierten Arbeit)
UR = Laut ThePlantList hat der taxonomische Name "Rheum coreanum" den Status "unresolved", ist also kein offiziell akzeptierter Name

Nachteil:
Das Skript verlässt sich darauf, dass man tatsächlich nur Sequenzen des gewünschten Bereichs heruntergeladen hat. Sollte wie oben erwähnt eine matK-like Sequenz mit dabei sein, würde diese auch unter "matK" geführt werden und möglicherweise zu Verwirrung führen.

Will man die Sequenzen direkt in MEGA oder JalView öffnen, muss man hier das Fasta Format wählen.

Aber nun zurück zum eigentlichen Thema. Wir haben nun von matK (einem kodierenden Bereich) einen Datensatz vorliegen und laden uns noch einen von einem nicht-kodierenden Bereich – einem intergenic Spacer –  herunter. Die Suchanfrage verändern wir zu 

txid3620[Organism] (psbA-trnH[title] OR trnH-psbA[title])

Damit suchen wir nach allen Rheum Sequenzen die im Titel entweder "psbA-trnH" oder "trnH-psbA" enthalten.

Leider ist es so, das es recht wenige Konventionen gibt, die einem das Leben bei der Suche und der Arbeit mit Sequenzen von Genbank leichter machen würden. Man muss davon ausgehen, dass Sequenzen je nach Lust und Laune entweder in der einen oder anderen Orientierung bei Genbank hinterlegt sind. Wenn man sich den Datensatz dann runter läd muss man die trnH-psbA Sequenzen erst noch umdrehen (reverscomplement), damit man sie mit den psbA-trnH Sequenzen vergleichen kann. Das oben erwähnte Skript ist mittlerweile darauf gefasst und dreht solche Sequenzen automatisch um.

Entfernen von redundanten Sequenzen

Jalview: http://www.jalview.org

In Jalview kann man die Sequenzen öffnen und redundante Daten entfernen.



Nicht vergessen den Datei-Typ auf Fasta zu stellen, ansonsten werden die Fasta Dateien nicht angezeigt!

Für den aktuellen Vergleich der Sequenzen zweier Marker kann man einfach alle Sequenzen markieren und 100% redundante Sequenzen löschen.





 Alle schwarz markierten Sequenzen stellen redundante Information dar und können durch REMOVE entfernt werden. Anschließened speichert man den Datensatz wieder. Wer nicht will, dass JalView die Längenangabe (z.B. /1–422) an die Sequenztitel anhängt kann dies über die Preferences im Haupt-Fenster ändern.




Indem man das Häkchen bei Fasta entfernt, wird in diesem Format der Zusatz "/start-end" nicht angehängt.

Mit JalView lässt sich natürlich mehr anfangen als nur die redundanten Sequenzen zu entfernen. Wir wollen nun die Sequenzen angleichen (to align).



Anschließend –  nachdem der Webservice den Auftrag bearbeitet hat –  öffnet sich ein neues Fenster mit den angeglichenen Sequenzen.

Visualisieren von Sequenzen


In diesem neuen Fenster wollen wir die Nucleotide etwas einfärben.



Nucleotide klingt vernünftig…



und zeigt die Nucleotide in entsprechend unterschiedlichen Farben…






Identität klingt interessant…




und sieht deutlich anders aus als "Nucleotide". Hier wird nicht zwischen den verschiedenen Nucleotiden sondern zwischen konservierten / identischen Bereichen (dunkel blaue Spalten) und den weniger identischen Bereichen (hellblaue bis weiße Spalten) unterschieden.

Ein weiteres Feature, was vor allem bei großen Alignments sehr hilfreich sein kann, ist das "Overview Window"




Es zeigt das komplette Alignment (derzeit mit der Färbung nach Identität) in einem Fenster an.

Ich will das Thema nun mit einer Frage beenden:

Wenn ihr euch von Rheum das matK und psbA-trnH Alignment nebeneinander im JalView Overview Window anschaut, welches Phänomen tritt im matK Alignment nicht in Erscheinung und warum ?

Liebe Grüße

Thomas