Posts mit dem Label OpenOffice werden angezeigt. Alle Posts anzeigen
Posts mit dem Label OpenOffice werden angezeigt. Alle Posts anzeigen

Freitag, 7. August 2015

Daten beschreiben und darstellen mit R und Co

Für die Arbeit mit DNA Sequenz Daten haben wir bereits Programme wie MEGA oder Jalview kennengelernt. Im folgenden sollen nun Programme vorgestellt werden, die etwas weniger speziell sind und mit anderen Daten, wie z.B. den Ausgaben von LAMINA, Smartgrain und ähnlichen Programmen umgehen können.

Tabellenkalkulation

Mit MS Excel oder dem kostenlosen OpenOffice Calc können wir ohne großen Aufwand verschiedene Diagramm Typen erstellen.
Für den etwas anspruchsvolleren Daten Jongleur lohnt es sich aber nach anderen Möglichkeiten Ausschau zu halten.

R - kostenloser Alleskönner für ... Nerds ?

R ist eine Programmiersprache für das statistische Arbeiten. Daten lassen sich in diversen Formaten einlesen, umwandeln, beschreiben, testen und darstellen. Seit 2011 gibt es für R neue Kleider, R Studio ist eine grafische Nutzeroberfläche für R.
Wer mit R (Studio) arbeiten will installiert sich R und anschließend R Studio.

How-to und Tutorials

Origin Professional

Als Student und Mitarbeiter des KIT hat man die Möglichkeit die Datenanalyse- und Grafiksoftware Origin Professional kostenlos zu nutzen. Die Professional Version beinhaltet dabei ebenfalls Multivariate Methoden wie z.B. die Principal Component Analyse.

Nach dem kostenlosen Kauf, stehen einem 3 Downloads zur Verfügung (2 mal MSI Dateien und eine EXE Datei). Mein Versuch das Programm über eine der MSI Dateien zu installieren, schlug fehl, bzw. führte dazu, dass ich beim Start des Programmes darauf hingewiesen wurde, dass die Lizenzdatei fehlt. Die Installation über die EXE Datei dagegen führte zum Erfolg. Man benötigt zur Installation den Lizensschlüssel, die Adresse und den Port des Lizensservers. Alle drei Angaben erhält man dem kostenlosen Kauf per Email zugeschickt.

Der Umgang mit Daten ist in Origin ähnlich wie in Excel und Calc. Man arbeitet mit Tabellen und der Maus anstatt mit Funktionsaufrufen über die Tatstatur. Diagramme können direkt formatiert werden. Origin bietet auch die Möglichkeit ala R mit Scripten bestimmte Arbeiten zu automatisieren.

How-to und Tutorials
To be extended...

Montag, 4. Mai 2015

Sequenzierung - Ergebnisse der automatischen Verarbeitung

Die Ergebnisse einer 96-well Platten Sequenzierung werden über ein Perl Skript, dass auf Bio-Perl Algorithmen zurückgreift, ausgewertet. Folgende Arbeitsschritte sind dabei automatisiert:
  • Zuordnung von Akzessions ID und Taxon Namen zu jeder Sequenz
Beispiel Zuordnung von Akzessions ID und Taxon Name. Oben: Blau markiert, original Sequenz Titel von GATC; Unten: Ergebnis nach Zuordnung. Schema: Taxon Name|Akzession ID|Primer|Sequenzierungs ID
  • Erstellung von Sequenz-Sammlungen pro Marker
    • Alle Sequenzen einer Gattung
    • Konsensus Sequenzen einer Gattung
    • IUPAC-Konsensus Sequenzen einer Gattung
Sequenz-Sammlungen von Rheum und dem Marker psbA-trnH. _Cons = Konsensus Sequenzen; _IUPAC = IUPAC Konsensus Sequenzen; _Sequences = Alle Sequenzen.
  •  Erhebung von Statistischen Daten zur Einschätzung der Qualität der Sequenzierung
    • Gesamtzahl der Base Calls
    • Anzahl aller qualitativ hochwertigen Base Calls
    • Länge der längsten ununterbrochenen (ohne N) Base Call-Sequenz 
Beispiel Tabelle mit statistischen Daten zur Einschätzung der Qualität der Sequenzierung. RawSeqLength = Gesamtzahl der Base Calls; CropSeqLength = Länge der längsten ununterbrochenen (ohne N) Base Call Sequenz; SeqLength = Anzahl aller qualitativ hochwertigen Base Calls
 Mit diesen Informationen und der Größe der entsprechenden Fragmente kann man dann z.B. mit einer Excel/Calc Formel errechnen wie viel des Fragments sequenziert werden konnte.

Die Formel um den Coverage Wert zu erhalten - (I3/(K3/100))/100 - teilt die Länge des längsten zusammenhängenden Stückes durch den 1/100 Teil der Fragment Länge, um den Anteil des Fragments zu erhalten, der zusammenhängend sequenziert werden konnte. Der Wert wird dann durch hundert geteilt, damit die Zellen Formatierung "Prozent" den Wert entsprechend anzeigt (1 = 100%).

Viel Erfolg beim Auswerten
Grüße
Thomas