Zur Seitenansicht
 

Titelaufnahme

Titel
Processing of massive datasets in genomics / Sebastian Schönherr
VerfasserSchönherr, Sebastian
Begutachter / BegutachterinSpecht, Günther ; Döller, Mario
Betreuer / BetreuerinSpecht, Günther
Erschienen2014
UmfangXI, 129 S. : Ill., graph. Darst.
HochschulschriftInnsbruck, Univ., Diss., 2014
Anmerkung
Enth. u.a. 3 Veröff. d. Verf. aus den Jahren 2014 . - Zsfassung in dt. Sprache
Datum der AbgabeMai 2014
SpracheEnglisch
Bibl. ReferenzOeBB
DokumenttypDissertation
Schlagwörter (DE)mapreduce / cloud computing / next generation sequencing / data processing / nosql / genomics / ngs / cloudgene
Schlagwörter (EN)mapreduce / cloud computing / next generation sequencing / data processing / nosql / genomics / ngs / cloudgene
Schlagwörter (GND)Sequenzanalyse <Chemie> / Datenverarbeitung / Verteiltes Dateiverwaltungssystem
URNurn:nbn:at:at-ubi:1-554 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Processing of massive datasets in genomics [3.98 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Fortschritte im Bereich der Sequenzierung führen zu einem massiven Datenanstieg und damit zu der Big Data Problematik innerhalb der Genetik. Sequenzierdaten des 3,2 Milliarden Positionen umfassenden menschlichen Genoms können in immer kürzerer Zeit mit zusehends geringeren Kosten produziert werden. Eine skalierbare Auswertung dieser Rohdaten ist heutzutage nur noch mit Unterstützung von verteilten Rechnersystemen möglich. Bedingt durch die Größe und Struktur der Daten hat sich hierbei MapReduce als geeignetes Programmiermodel erwiesen. Kleinere genetische Institute und eigenständige Forscher können jedoch meist nicht auf eigene bioinformatische Abteilungen zurückgreifen, was den Zugang zu Rechnerarchitekturen und verteilten Ansätzen erheblich erschwert. Eine mögliche Lösung stellen virtualisierte Umgebungen dar. Zahlreiche Herausforderungen müssen in diesem Kontext adressiert werden, um Forschern den Zugang zu diesen Ressourcen zu ermöglichen. Im Rahmen dieser Dissertation wird ein Framework zur Orchestrierung von MapReduce Anwendungen in virtualisierten Umgebungen entwickelt, das einen vereinfachten Zugriff auf verteilte Architekturen und bioinformatischen Applikationen ermöglicht. Anhand von entwickelten Ansätzen, wie der Verarbeitung von Sequenzen, der Alignierung von Sequenzen zu einem Referenzgenom und dem Identifizieren neuer genetischer Risikofaktoren mittels öffentlich verfügbarer Daten (1000 Genomes Project), wird gezeigt, dass Fortschritte in der Genetik mit Fortschritten im Bereich von NoSQL Datenbanken kombiniert werden können. Zusammengefasst stellt das entwickelte Framework eine neue Möglichkeit für den Zugang zu Cluster-Architekturen und parallelisierten Algorithmen zur Verfügung, wobei die entwickelten Lösungen vielversprechende Evaluierungsergebnisse aufweisen.

Zusammenfassung (Englisch)

A large amount of big data analyses are exploiting the advantages of computing cluster architectures in combination with the MapReduce paradigm. The data explosion has also reached life sciences, particularly since the advent of the Next Generation Sequencing (NGS). NGS allows decoding all of approximately 3.2 billion positions of a human genome in feasible time, which has resulted in an unprecedented increase in the available data. Due to the nature and size of the produced raw data, the MapReduce paradigm has been demonstrated as a well-fitting model for analyzing NGS data. Unfortunately, smaller genetic centers or individual investigators can hardly afford the acquirement and maintenance of own computer systems with adequate performance. A possible solution comes in the form of virtualized computer infrastructure resources, or cloud computing. However, formidable challenges need to be addressed to make these resources available to the individual investigators. This thesis introduces an execution framework for deploying MapReduce-based applications in virtualized infrastructures, which also builds the backbone of this work. Additionally, a number of computational modeling approaches have been devised in this work that cover pre-processing of sequencing data, mapping of many short sequencing reads to a reference genome, and the detection of new genetic risk factors using data from the 1000 Genomes Project. In this context, a data caching mechanism utilizing the distributed file system that simulates the behavior of makefiles and results in runtime cost savings in the cloud is presented. Summarized, the presented framework introduces a novel method for delivering MapReduce cluster infrastructures for domain experts in genomics, greatly increasing accessibility of the MapReduce paradigm in public clouds, while the devised modeling solutions show promising data parallelization results.