Synthetic data generation for big data

Foril, Alexander

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-9802

Autor(en):	Foril, Alexander
Titel:	Synthetic data generation for big data
Sonstige Titel:	Synthetische Datengenerierung für Big Data
Erscheinungsdatum:	2016
Dokumentart:	Abschlussarbeit (Master)
Seiten:	127
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-98191 http://elib.uni-stuttgart.de/handle/11682/9819 http://dx.doi.org/10.18419/opus-9802
Zusammenfassung:	Big Data ist ein wachsendes Feld in der Informationswissenschaft in Bezug auf Speicherung, Verarbeitung und Analyse von großen Datensätzen. Beispiele für Big Data können in allen Branchen gefunden werden, wie beispielsweise in der Produktion, Medizin und Energie. Konventionelle Datenverarbeitungsmethoden sind für die neuen Aufgaben nicht ausreichend, sodass neue Algorithmen, Tools und Plattformen entwickelt werden müssen. Das Testen von neuen Ansätzen in der Wissenschaft ist jedoch nicht trivial, da große Mengen an Daten nötig sind. Diese Datensätze können nicht einfach aus realen Benutzerdaten extrahiert werden, da die Daten öfters in verschiedenen Systemen verteilt und durch Datenschutzgesetzte geschützt sind. Folglich erfordert das Entwickeln praktischer Big Data Lösungen ein hohes Maß an Zusammenarbeit mit den potenziellen Kunden. Das kann vor allem für Wissenschaftler eine erhebliche Hürde darstellen, insbesondere da die Lösungen in frühen Phasen der Entwicklung und in der Grundlagenforschung möglicherweise nicht sofort zum Kundennutzen beitragen. Um Softwareentwicklern und Wissenschaftlern zu helfen, soll in dieser Arbeit ein Framework zur synthetischen Datengenerierung für Big Data entwickelt werden. Mit diesem Framework soll es möglich sein ein Datengenerierungsszenario zu modellieren und auszuführen, um große synthetische Datensätze zu generieren. Der Big Data Generator wird anhand praktischen Anwendungsfällen aus der Automobil- und Versicherungsbranche evaluiert. Big data is a growing field in information science concerning the storage, processing and analysis of large datasets. Examples for big data can be found in all industries, for example in manufacturing, medicine and energy. Conventional methods of data processing are not sufficient for these new tasks so new algorithms, tools and platforms need to be developed. However, testing new approaches in science is not trivial, as large amounts of data are needed. These datasets cannot be easily transferred from users, as they are often distributed in multiple systems and protected by privacy and data protection laws. Developing practical big data solutions thus requires a high degree of cooperation with potential customers. This can be a substantial hurdle especially for researchers, as solutions may not immediately benefit a customer, especially in early steps of development and in basic research. To help software developers and researchers, in this work a framework for synthetic data generation for big data is to be developed. This framework shall make it possible to model a data generation scenario and execute it, thus generating big synthetic datasets. The big data generator is to be applied within real-life use cases.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
MA_Foril_Alexander.pdf		3 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart