Titelaufnahme

Titel
A MapReduce workflow system for high-throughput detection and analysis of genetic variations / Lukas Forer
VerfasserForer, Lukas
Betreuer / BetreuerinSpecht, Günther
Erschienen2014
UmfangXIV, 136 S. : Ill., graph. Darst.
HochschulschriftInnsbruck, Univ., Diss., 2014
Anmerkung
Zsfassung in dt. Sprache
Datum der AbgabeJuli 2014
SpracheEnglisch
Bibl. ReferenzOeBB
DokumenttypDissertation
Schlagwörter (DE)Bioinformatik / Genetik / MapReduce / Workflow System
Schlagwörter (EN)Bioinformatics / Genetics / MapReduce / Workflow System
Schlagwörter (GND)Genetik / Bioinformatik / Cloud Computing / Prozessmanagement
Zugriffsbeschränkung
 Das Dokument ist ausschließlich in gedruckter Form in der Bibliothek vorhanden.
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Die technischen Entwicklungen von effizienten Messmethoden im Bereich der Molekularen Biologie ermöglichen es, dass immer schneller und kostengünstiger genetische Datensätze produziert werden können (z.B. Sequenzierung von DNA). Die Engpässe in solchen Experimenten liegen nun nicht mehr bei der Datengenerierung im Labor, sondern vielmehr im Bereich der Datenanalyse. Daher müssen die zugrunde liegenden Methoden effizient parallelisiert werden, um die stets wachsende Datenmenge in endlicher Zeit verarbeiten zu können. Nur skalierbare Algorithmen erlauben es zudem, alle vorhanden Ressourcen bestmöglichst auszunutzen. MapReduce und Cloud Computing stellen eine mögliche Lösung dar, um solche rießigen Datensätze in angemessenere Zeit und mit angemessenen Kosten auszuwerten. Bioinformatische Algorithmen, die diesen Ansatz verwenden, existieren momentan nur als Insellösungen und es fehlen Systeme, die es ermöglichen komplette Workflows auf der Basis von MapReduce zu erstellen. Solche Systeme ermöglichen es Biologen, sich auf die eigentlichen Problemstellungen konzentrieren zu können, ohne dabei den Fokus auf den technischen und informatischen Aspekt verlagern zu müssen. Diese Arbeit präsentiert eine mögliche Lösung dieses Problems und beschreibt die Architektur eines Systems, welches alle Anforderungen erfüllt, um die Daten parallel und auf verteilten Computersystemen effizient verarbeiten zu können. Alle technischen Details werden durch geeignete Abstraktionen vor dem Endbenutzer versteckt, dadurch wird ein transparentes und reproduzierbares Durchführen von Experimenten ermöglicht. Der hier vorgestellte Ansatz wurde am Beispiel von zwei komplexen Workflows im Bereich der Genetik erfolgreich eingesetzt.

Zusammenfassung (Englisch)

Since the advent of novel high-throughput technologies in the field of molecular biology (i.e. next-generation sequencing of DNA), even more data will be produced and genetic information floods the Bioinformatics. Thus, molecular biology evolves into a big data science, where the bottleneck is no longer the production of raw data in the laboratory, but its analysis and interpretation. To handle such a big amount of data and to analyze them in reasonable time, workflows need to be parallelized efficiently in order to scale with the increasing data volume and the number of available resources. MapReduce and Cloud Computing constitute to an attractive alternative to deal with large datasets in adequate time and with adequate costs. However, MapReduce programs in the field of Bioinformatics are available only on a per-tool basis. What currently is lacking, is the ability to interactively chain multiple MapReduce tools and allow the domain experts to focus on the data analysis rather than on the mechanics of the pipeline. In this thesis, I propose a system to compose complex workflows from multiple bioinformatics MapReduce tools. The workflow platform fulfils the requirements of analysis pipelines on large scale genomic data by utilizing parallel and distributed computing architectures. Additionally, the proposed architecture contains different abstraction layers in order to hide technical details of how those tools are combined/executed and provides options to easily reproduce experiments. Moreover, the approach was successfully tested on the example of two complex and data intensive workflows.