Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-10690
Autor(en): Popp, Matthias
Titel: Comprehensive Support of the Lifecycle of Machine Learning Models in Model Management Systems
Sonstige Titel: Umfassende Unterstützung des Lebenszyklus von Machine-Learning-Modellen in Model-Management-Systemen
Erscheinungsdatum: 2019
Dokumentart: Abschlussarbeit (Master)
Seiten: 69
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-107078
http://elib.uni-stuttgart.de/handle/11682/10707
http://dx.doi.org/10.18419/opus-10690
Zusammenfassung: Today, Machine Learning (ML) is entering many economic and scientific fields. The lifecycle of ML models includes data pre-processing to transform raw data into features, training a model with the features, and providing the model to answer predictive queries. The challenge is to ensure accurate predictions by continuously updating the model with automatic or manual retraining. To be aware of all changes, e.g. datasets and parameters, it is required to store metadata over the entire ML lifecycle. In this thesis we present a concept and system for comprehensive support of the ML lifecycle. The concept includes a metadata schema, as well as a solution to collect and enrich the metadata. The metadata schema contains information about the experiment, runs, executions, executables and common artifacts in ML such as datasets, models, and metrics. The stored information can be used for comparisons, re-iterations, and backtracking of ML experiments. We achieve this by tracking the lineage of ML pipeline steps and collecting metadata such as hyperparameters. Furthermore, a prototype is implemented to demonstrate and evaluate the concept. A case study, based on a selected scenario, serves as the basis for a qualitative assessment. The case study shows that the concept meets all the requirements and is therefore a suitable approach to comprehensively support ML model lifecycle.
Heutzutage dringt Machine Learning (ML) in viele wirtschaftliche und wissenschaftliche Bereiche vor. Der Lebenszyklus von ML Modellen umfasst im Wesentlichen die Datenvorverarbeitung für das Training des Modells, das Training selbst und die Bereitstellung des Modells zur Beantwortung von Vorhersageanfragen. Da sich Daten mit der Zeit ändern, können Modelle an Genauigkeit verlieren. Deswegen werden ML Pipelines eingesetzt, die das Modell regelmäßig neu trainieren damit es kontinuierlich genaue Vorhersagen liefert. Trotzdem treten immer wieder Fehler in den Pipelines auf. Oft fehlen jedoch die benötigten Metadaten, um diese zu erkennen. Die Herausforderung besteht darin, die benötigten Metadaten in geeigneter Form zu speichern und für Datenwissenschaftler aufzubereiten. Im Rahmen dieser Arbeit wird ein Konzept zur Metadatenerfassung für den kompletten Lebenszyklus von ML Modellen vorgestellt und an einem Prototyp verprobt. Hierfür werden verschiedene Metadaten und Artefakte während der Nutzungs- und Wartungsphase des Modells gesammelt und gespeichert. Dazu gehören alle deskriptiven und strukturellen Metadaten über die Schritte und deren Reihenfolge sowie die verwendeten Ein- und Ausgangsartefakte wie Datensätze, Modelle und Metriken. Es wird ein Metadatenschema entworfen, das innerhalb des Prototyps umgesetzt wird. Abschließend erfolgt eine Bewertung des Konzepts mittels einer Fallstudie. Abschließend wird demonstriert wie der geschaffene Prototyp Datenwissenschaftler bei einem konkreten Szenario der Root-Cause-Analyse von fehlerhaften ML Modellen unterstützt. Die Fallstudie zeigt, dass das Konzept alle Anforderungen erfüllt und somit ein geeigneter Ansatz ist, um den ML Modelllebenszyklus umfassend zu unterstützen.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Master-Thesis-Matthias-Popp.pdf1,78 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.