Titelaufnahme

Titel
Workload modelling for data-intensive systems / by Mario Lassnig
VerfasserLassnig, Mario
Begutachter / BegutachterinFahringer, Thomas ; Schikuta, Erich ; Quinson, Martin
Betreuer / BetreuerinFahringer, Thomas
Erschienen2014
UmfangXX, 210 S. : Ill., graph. Darst.
HochschulschriftInnsbruck, Univ., Diss., 2014
Datum der AbgabeApril 2014
SpracheEnglisch
Bibl. ReferenzOeBB
DokumenttypDissertation
Schlagwörter (DE)Workloadmodellierung / Daten-intensive Systeme / Verteiltes Rechnen / Datenmanagement
Schlagwörter (EN)workload modelling / data-intensive systems / distributed computing / data management
Schlagwörter (GND)CERN / Datenmanagement
Zugriffsbeschränkung
 Das Dokument ist ausschließlich in gedruckter Form in der Bibliothek vorhanden.
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Diese Arbeit präsentiert eine umfassende Studie basierend auf den Anforderungen eines globalen datenintensiven Systems für das ATLAS Experiment an CERNs Large Hadron Collider. Zuerst wird ein Verfahren beschrieben, um skalierbare verteilte Datenverwaltungsoperationen in einer nichtintrusiven Weise zu erfassen. Diese Operationen werden in einer global synchronisierten Abfolge der Ereignisse, dem Workload, gesammelt. Eine vergleichende Analyse des neuen datenintensiven Workloads gegen bestehende rechenintensive Workloads wird durchgeführt, die zur Entdeckung der Bedeutung der beschreibenden Attribute im Workload führt. Bestehende Modelle für rechenintensive Systeme betrachten nur die Ankunftsraten der Operationen, jedoch spielen in datenintensiven Systemen die Zusammenhänge zwischen Attributen eine zentrale Rolle. Darüber hinaus wird die schädliche Wirkung von schnellen, korrelierten Ankünften, so genannten Bursts, beurteilt. Es wird ein Modell vorgeschlagen, welches Burstverhalten aus historischen Workload lernen kann, und mögliche künftige Bursts prognostiziert. Um mit der Erstellung eines repräsentativen Workloadmodells zu helfen, wird eine Ähnlichkeitmetrik vorgeschlagen, die die innere Struktur des Workloads in einem zweistufigen Verfahren bewertet: das zeitabhängige Attribut wird über Wavelet-Transformation zerlegt, und beschreibende Attribute werden über Association Rules gelernt. Schließlich wird ein analytisches Workloadmodell vorgeschlagen, welches die inhärenten Eigenschaften von datenintensiven Systemen unterstützt, ohne dass einen Lernschritt notwendig ist. Auf diese Weise ist es möglich, in der Entwicklung befindliche datenintensive Systeme mit repräsentativen Workload auszustatten, obwohl keine historischen Daten verfügbar wären.

Zusammenfassung (Englisch)

This thesis presents a comprehensive study built upon the requirements of a global data-intensive system, built for the ATLAS Experiment at CERN's Large Hadron Collider. First, a scalable method is described to capture distributed data management operations in a non-intrusive way. These operations are collected into a globally synchronised sequence of events, the workload. A comparative analysis of this new data-intensive workload against existing computational workloads is conducted, leading to the discovery of the importance of descriptive attributes in the operations. Existing computational workload models only consider the arrival rates of operations, however, in data-intensive systems the correlations between attributes play a central role. Furthermore, the detrimental effect of rapid correlated arrivals, so called bursts, is assessed. A model is proposed that can learn burst behaviour from captured workload, and in turn forecast potential future bursts. To help with the creation of a full representative workload model, a similarity measure is proposed that assesses the internal structure of the workload in a two-step method: the time-dependent attribute is decomposed via wavelet transformation, and descriptive attributes are learnt via association rule mining. Finally, an analytical workload model is proposed, that supports the inherent features of data-intensive systems without a learning step. That way, potential future systems in development can use workload that is representative of data-intensive systems even though no particular historical data is available.