Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

A Modular and Fault-Tolerant Data Transport Framework

Steinbeck, Timm Morten

German Title: Ein Modulares und Fehler-Tolerantes Daten-Transport Framework

[thumbnail of dissertation-steinbeck.pdf]
Preview
PDF, English
Download (3MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

The High Level Trigger (HLT) of the future ALICE heavy-ion experiment has to reduce its input data rate of up to 25 GB/s to at most 1.25 GB/s for output before the data is written to permanent storage. To cope with these data rates a large PC cluster system is being designed to scale to several 1000 nodes, connected by a fast network. For the software that will run on these nodes a flexible data transport and distribution software framework, described in this thesis, has been developed. The framework consists of a set of separate components, that can be connected via a common interface. This allows to construct different configurations for the HLT, that are even changeable at runtime. To ensure a fault-tolerant operation of the HLT, the framework includes a basic fail-over mechanism that allows to replace whole nodes after a failure. The mechanism will be further expanded in the future, utilizing the runtime reconnection feature of the framework's component interface. To connect cluster nodes a communication class library is used that abstracts from the actual network technology and protocol used to retain flexibility in the hardware choice. It contains already two working prototype versions for the TCP protocol as well as SCI network adapters. Extensions can be added to the library without modifications to other parts of the framework. Extensive tests and measurements have been performed with the framework. Their results as well as conclusions drawn from them are also presented in this thesis. Performance tests show very promising results for the system, indicating that it can fulfill ALICE's requirements concerning the data transport.

Translation of abstract (German)

Das High Level Trigger (HLT) System des zukünftigen Schwerionen-Experiments ALICE muss seine Eingangsdatenrate von bis zu 25 GB/s zur Ausgabe auf höchstens 1.25 GB/s reduzieren bevor die Daten gespeichert werden. Zur Handhabung dieser Datenraten ist ein großer PC Cluster geplant, der bis zu mehreren tausend Knoten skalieren soll, die über ein schnelles Netzwerk verbunden sind. Für die Software, die auf diesem System eingesetzt werden soll, wurde ein flexibles Software-Gerüst zum Transport der Daten entwickelt, das in dieser Arbeit beschrieben wird. Es besteht aus einer Reihe separater Komponenten, die über eine gemeinsame Schnittstelle verbunden werden können. Auf diese Weise können verschiedene Konfigurationen für das System einfach erstellt werden, die sogar zur Laufzeit geändert werden können. Um ein fehlertolerantes Arbeiten des HLT Systems zu gewährleisten, enthält die Software einen einfachen Reparatur-Mechanismus, der es erlaubt ganze Knoten nach einem Fehler zu ersetzen. Dieser Mechanismus wird in Zukunft unter Ausnutzung der dynamischen Rekonfigurierbarkeit des Systems weiter ausgebaut werden. Zur Verbindung der einzelnen Knoten wird eine Kommunikationsklassenbibliothek benutzt, die von den spezifischen Netzwerkeigenschaften, wie Hardware und Protokoll, abstrahiert. Sie erlaubt es, dass eine Entscheidung für eine bestimmte Technologie erst zu einem späteren Zeitpunkt getroffen werden muss. Die Bibliothek enthält bereits funktionierende Prototypen für das TCP-Protokoll sowie SCI Netzwerkkarten. Erweiterungen können hinzugefügt werden, ohne dass andere Teile des Systems geändert werden müssen. Mit dem Software-Gerüst wurden ausführliche Tests und Messungen durchgeführt. Ihre Ergebnisse sowie aus ihnen gezogene Schlussfolgerungen werden ebenfalls in dieser Arbeit vorgestellt. Messungen zeigen für das System sehr vielversprechende Ergebnisse, die deutlich machen, dass es beim Transport von Daten eine ausreichende Leistung erreicht, um die durch ALICE gestellten Anforderungen zu erfüllen.

Document type: Dissertation
Supervisor: Lindenstruth, Prof. Dr. Volker
Date of thesis defense: 12 February 2004
Date Deposited: 07 Apr 2004 10:23
Date: 2003
Faculties / Institutes: The Faculty of Physics and Astronomy > Kirchhoff Institute for Physics
DDC-classification: 530 Physics
Controlled Keywords: Cluster <Rechnernetz>, Parallelverarbeitung, Parallelrechner, Fehlertoleranz, Schwerionenphysik, Datenerfassung, Online-Datenerfassung
Uncontrolled Keywords: TriggersystemeTriggersystems
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative