Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

NGS Data Postprocessing

No description
by

Sebastian Roskosch

on 28 August 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of NGS Data Postprocessing

Barcode Demultiplexing
Kommandozeilen-Aufruf
Modul:
arg_parse.h
Verarbeiten von Argumenten
Einlesen der Dateien
Modul:
file.h
,
iostream
,
sequence.h
,
seq_io.h
Alphabet: Dna, Dna5, DnaQ, Dna5Q
Reads:
Sehr viele! Batch-reading
single-end: StringSet<String<TAlphabet>>
paired-end: 2x StringSet<String<TAlphabet>>
Indizes geben Zugehörigkeit an
Barcodes:
Falls keine Zuordnung: StringSet<String<TAlphabet>>
Sonst: StringSet<String<TAlphabet>>, StringSet<String<char>>
Indizes geben Zugehörigkeit an
Matching
Modul:
find.h
,

align.h
Nur die ersten 6 Basen (Illumina) von Interesse
Paired-end: Evtl. auch die letzten 6+x Basen
Prefix/Suffix
Algorithmus:

Match-Positionen merken/übergeben
für Abtrennung der Barcodes
Barcode-clipping
2 mögliche Vorgehensweisen:
Barcode-Positionen zunächst nur speichern
Beim Speichern der reads Barcodes ausschließen
Barcodes direkt aus den reads im Arbeitsspeicher löschen
Gruppieren der reads
Prüfen auf Konflikte:
Mehrer Barcodes matchen auf eine Seq.
Unidentified/warning
paired-end: Paar matcht auf verschiedene Barcodes
Unidentified/warning
Speichern der reads (Referenz) in einzelnen StringSet<String<TAlphabet>>
Kommandozeilen-Argumente
Eingabe-Pfad: reads (FASTA, FASTQ?)
Inline oder Multiplex?
Multiplex: Pfad zur Barcode Datei
Single-end oder paired-end reads?
paired-end: Behandlung des 2. reads? (Bonus)
ignorieren?
doppelt kontrollieren?
Eingabe-Pfad: Liste der Barcodes
Zuordnung zu Quellen vorhanden?
Fehlertoleranz
Ausgabe-Pfad
Exact Matching
WuManber (multiple, exact)
needle = Barcodes, haystack = Reads

IndexEsa (index based, exact)
needle = Reads, haystack = Barcode
paired-end Problem: 3'-Barcode+Adapter möglich
Lösung:
5'-Barcode mit IndexEsa matchen
3'-Barcode mit WuManber matchen (zuvor ermittelte Seq.)
Approximate Matching
SwiftLocal (index based, approximative)
needle = Read, haystack = Barcode
Lösung des paired-end Problems:
5'-Ende mit SwiftLocal matchen
3'-Ende mit free-end-gaps alignment (zuvor ermittelte Seq.)
MyersBitVector
+ Schnell
- Levenshtein-Distanz Gaps
NeedlemanWunsch
Barcode-Index für Zuordnung
übergeben
Output
Modul:
file.h
Speichert alle reads eines Barcodes/samples in einer Datei
paired-end: Zwei Dateien pro Barcode/sample
Konsolenausgabe: Zusammenfassung
NGS Data Postprocessing
SeqDPT - Sequencing-Data Postprocessing Toolbox
Sebastian Roskosch, Benjamin Strauch
3' Adapter Removal
Low-quality Tail Removal
Motivation
Termination durch 5'- & 3'-Adapter
DNA-Poly. liest Richtung 5' - 3'
evtl. 3'-Adapter abgelesen!
3'-Adapter in Datenbank bekannt
Strategien für single- & paired-end
Umsetzung mit SeqDPT
Strategien
sensitiver
spezifischer
weniger Basen besser als falsche
mit Hinblick auf Qualität (siehe read trimming) vertretbar
bei ≤ 2 übereinstimmenden Basen in mehr als 6% der Fälle auch Zufallsprodukt
Gerade kurze Sequenzen (microRNA, etc.) haben Adapterproblem.


Motivation
Basenqualität nimmt mit Länge ab
Weniger verlässlich für Assembly und SNP calling
Lösung: Verwerfen von schlechten hinteren Basen
Verfahren
Identifizieren potenzieller Adapter
overlap-/ free-shift-Alignment ohne Gaps
Scoring: naiv 1, 0 oder evtl. abhängig von der Basenqualität im Endbereich.
Motivation
Kostensparender, mehrere samples auf einmal zu sequenzieren
Alle DNA-Moleküle eines samples mit spezifischer Barcode-Sequenz ligiert
Nach Sequenzierung muss Barcode wieder entfernt werden
Allgemeines
3 Programmteile:
Barcode demultiplexing
Low-quality tail removal
3'-Adapter removal
Tools gemeinsam oder einzeln über Auswahlmenü auswähl- und konfigurierbar
"sliding window": nach mittlerer Fenster-Qualität schneiden
nur ein Präfix aus Basen mit Qualität > Q erhalten.
oder BWA-ähnlich: Basen bis zu x erhalten
Readlänge
Reads höchstens bis zur festgelegten Größe trennen
zu kurze Reads entfernen bzw. bei paired-end durch einzelnes "N" ersetzen.
Fragen
Welche Trimming-Methode?
Wie viel abtrennen?
zu kurze Reads verwerfen?
Parameter
Mindestqualität der Basen
Mindestlänge gekürzter Reads
Trimming-Methode
Reads löschen?
- q --quality
- l --length
-m --method
--keep-mate
Ausgabe
ein bzw. zwei fastq-Dateien bei single-/paired-end
bei Wunsch zusätzliche Datei mit entstandenen partnerlosen Reads bei paired-end
seqan/align.h
globalAlignment
AlignConfig
Score
Meilensteine (Benjamin)
29.04: Read trimming + Tests
06.05: Adapter removal + Tests
13.05: Adapter removal & Refactoring
20.05: Integration in Pipeline/SeqDPT

Parameter
Scoreschwelle für Erkennung
Datei mit bekannten Adaptern
-s --score
-a --adapters
Bridge Amplification
Vorgang:
Inline: Barcode in Sequenz am 5'-ende (grün)
Multiplex: Barcode am 3'-ende (rot)
source:
SCHLEBUSCH, Stephen and ILLING, Nicola. Next generation shotgun sequencing and the challenges of de novo genome assembly. S. Afr. j. sci. [online]. 2012, vol.108, n.11-12 [cited 2013-04-23], pp. 62-70 . Available from: <http://www.scielo.org.za/scielo.php?script=sci_arttext&pid=S0038-23532012000600016&lng=en&nrm=iso>. ISSN 0038-2353.
Meilensteine (Sebastian)
29.04: Input/parsing
02.05: Exact Matching + Tests
06.05: Approximate Matching + Tests
08.05: Barcode clipping + Tests
09.05: Read grouping + Tests
13.05: Output & Refactoring
17.05: Integration in Pipeline/SeqDPT

Abschneiden bei "signifikantem" Ergebnis
Besonderheiten
paired-end liefert mehr Information
globales Alignment geht schneller, da nur 5'-3'
Full transcript