Towards a Complete Privacy Preserving Machine Learning Pipeline

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/130058
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1300586
http://dx.doi.org/10.15496/publikation-71420
Dokumentart: Dissertation
Erscheinungsdatum: 2022-08-05
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Pfeifer, Nico (Prof. Dr.)
Tag der mündl. Prüfung: 2022-07-29
DDC-Klassifikation: 004 - Informatik
Freie Schlagwörter:
Privacy Preserving Machine Learning
Privacy Preserving SVM
Multi-party Computation Framework
Privacy Preserving AUC
Kernel-based Machine Learning Algorithms
Encoding for Dot Product
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Gedruckte Kopie bestellen: Print-on-Demand
Zur Langanzeige

Inhaltszusammenfassung:

Das maschinelle Lernen hat seinen Erfolg bei verschiedenen Problemen in vielen unterschiedlichen Bereichen bewiesen. Verschiedene Algorithmen für maschinelles Lernen verwenden unterschiedliche Ansätze, um die zugrunde liegenden Muster in den Daten zu erfassen. Auch wenn die Menge der Daten bei den verschiedenen Algorithmen für maschinelles Lernen unterschiedlich ist, benötigen sie doch eine ausreichende Menge an Daten, um diese Muster zu erkennen. Eine der einfachsten Möglichkeiten, diesen Bedarf der Algorithmen für maschinelles Lernen zu decken, ist die Verwendung mehrerer Quellen, die die gleiche Art von Daten erzeugen. Eine solche Lösung ist machbar, wenn man bedenkt, dass die Geschwindigkeit der Datengenerierung und die Anzahl der Quellen, die diese Daten generieren, parallel zu den Entwicklungen in der Technologie gestiegen sind. Der Wunsch der Algorithmen des maschinellen Lernens nach Daten kann mit Hilfe dieser Quellen leicht erfüllt werden. Dies kann jedoch zu einer Beeinträchtigung der Privatsphäre führen. Die von diesen Quellen erzeugten Daten können sensible Informationen enthalten, die für unerwünschte Zwecke verwendet werden können. Obwohl die Algorithmen für maschinelles Lernen Daten benötigen, sind die Quellen daher möglicherweise nicht bereit, ihre Daten weiterzugeben. Ein ähnliches Dilemma tritt auf, wenn der/die Dateneigentümer*in mit Hilfe von Algorithmen für maschinelles Lernen nützliche Informationen aus den Daten extrahieren möchte, aber nicht über genügend Rechenleistung oder Wissen verfügt. In diesem Fall kann diese Aufgabe möglicherweise an externe Parteien ausgelagert werden, die Algorithmen für maschinelles Lernen als Dienstleistung anbieten. Auch in diesem Fall können die sensiblen Informationen in den Daten der entscheidende Faktor für den/die Eigentümer*in sein, sich nicht für eine Auslagerung zu entscheiden, was dann dazu führt, dass die Daten für den/die Eigentümer*in nicht genutzt werden. Um diese Art von Dilemmata und Problemen anzugehen, zielt diese Arbeit darauf ab, eine vollständige Pipeline für maschinelles Lernen unter Wahrung der Privatsphäre zu entwickeln. Es werden mehrere Studien vorgestellt, die sich mit verschiedenen Phasen der Pipeline befassen, so dass alle Phasen eines Algorithmus für maschinelles Lernen unter Wahrung der Privatsphäre durchgeführt werden können. Eine dieser Phasen, die in dieser Arbeit behandelt wird, ist das Training eines maschinellen Lernalgorithmus. Das Training von kernbasierten maschinellen Lernalgorithmen unter Wahrung der Privatsphäre wird in verschiedenen Arbeiten mit unterschiedlichen kryptographischen Techniken behandelt, von denen eine ein von aus entwickeltes neuartiges Verschlüsselungsverfahren ist. Diese haben jeweils unterschiedliche Vorteile gegenüber den anderen. Darüber hinaus werden in dieser Arbeit Studien vorgestellt, die sich mit der Testphase nicht nur kernelbasierter maschineller Lernalgorithmen befassen, sondern auch mit einem speziellen Typ rekurrenter neuronaler Netze, nämlich den rekurrenten Kernnetzen, das die erste Studie ist, die eine solche Inferenz durchführt, ohne die Privatsphäre zu gefährden. Um eine datenschutzkonforme Inferenz auf rekurrenten Kernnetzen zu ermöglichen, wird in dieser Arbeit ein Framework mit dem Namen CECILIA eingeführt, das zwei neuartige Funktionen enthält, nämlich die Exponentialfunktion und die inverse Quadratwurzel der Gram-Matrix, sowie effiziente Versionen etablierter Funktionen, Multiplexer und least significant bit. Unter Verwendung dieses Frameworks und anderer Ansätze in den entsprechenden Studien ist es möglich, datenschutzkonforme Inferenzen für verschiedene vortrainierte Algorithmen des maschinellen Lernens durchzuführen. Neben dem Training und Testen von maschinellen Lernalgorithmen unter Wahrung der Privatsphäre wird in dieser Arbeit auch eine Studie vorgestellt, die darauf abzielt, die Leistung von maschinellen Lernalgorithmen zu bewerten, ohne die Privatsphäre zu gefährden. In dieser Arbeit wird CECILIA eingesetzt, um die Berechnung der Fläche unter der Kurve für zwei verschiedene kurrenbasierte Auswertungen, nämlich die Receiver-Operating-Characteristic-Kurve und die Precision-Recall-Kurve, auf eine datenschutzfreundliche Weise zu realisieren. Alle vorgeschlagenen Ansätze werden anhand verschiedener Aufgaben des maschinellen Lernens auf ihre Korrektheit geprüft und auf ihre Skalierbarkeit mit den Parametern des entsprechenden Systems/Algorithmus unter Verwendung synthetischer Daten untersucht. Die Ergebnisse zeigen, dass das Training und Testen von kernbasierten maschinellen Lernalgorithmen unter Wahrung der Privatsphäre mit verschiedenen Einstellungen möglich ist und, dass die Inferenz mit einem vortrainierten rekurrenten Kernnetzwerk unter Verwendung von CECILIA möglich ist. Darüber hinaus ermöglicht CECILIA auch die exakte Berechnung der Fläche unter der Kurve, um die Leistung eines maschinellen Lernalgorithmus zu bewerten, ohne die Privatsphäre zu beeinträchtigen.

Abstract:

Machine learning has proven its success on various problems from many different domains. Different machine learning algorithms use different approaches to capture the underlying patterns in the data. Even though the amount varies between the machine learning algorithms, they require sufficient amounts of data to recognize those patterns. One of the easiest ways to meet this need of the machine learning algorithms is to use multiple sources generating the same type of data. Such a solution is feasible considering that the speed of data generation and the number of sources generating these data have been increasing in parallel to the developments in technology. One can easily satisfy the desire of the machine learning algorithms for data using these sources. However, this can cause a privacy leakage. The data generated by these sources may contain sensitive information that can be used for undesirable purposes. Therefore, although the machine learning algorithms demand for data, the sources may not be willing or even allowed to share their data. A similar dilemma occurs when the data owner wants to extract useful information from the data by using machine learning algorithms but it does not have enough computational power or knowledge. In this case, the data source may want to outsource this task to external parties that offer machine learning algorithms as a service. Similarly, in this case, the sensitive information in the data can be the decisive factor for the owner not to choose outsourcing, which then ends up with non-utilized data for the owner. In order to address these kinds of dilemmas and issues, this thesis aims to come up with a complete privacy preserving machine learning pipeline. It introduces several studies that address different phases of the pipeline so that all phases of a machine learning algorithm can be performed privately. One of these phases addressed in this thesis is training of a machine learning algorithm. The privacy preserving training of kernel-based machine learning algorithms are addressed in several different works with different cryptographic techniques, one of which is a our newly developed encryption scheme. The different techniques have different advantages over the others. Furthermore, this thesis introduces our study addressing the testing phase of not only the kernel-based machine learning algorithms but also a special type of recurrent neural network, namely recurrent kernel networks, which is the first study performing such an inference, without compromising privacy. To enable the privacy preserving inference on recurrent kernel networks, this thesis introduces a framework, called CECILIA, with two novel functions, which are the exponential and the inverse square root of the Gram matrix, and efficient versions of the existing functions, which are the multiplexer and the most significant bit. Using this framework and other approaches in the corresponding studies, it is possible to perform privacy preserving inference on various pre-trained machine learning algorithms. Besides the training and testing of machine learning algorithms in a privacy preserving way, this thesis also presents a work that aims to evaluate the performance of machine learning algorithms without sacrificing privacy. This work employs CECILIA to realize the area under curve calculation for two different curve-based evaluations, namely the receiver operating characteristic curve and the precision-recall curve, in a privacy preserving manner. All the proposed approaches are shown to be correct using several machine learning tasks and evaluated for the scalability of the parameters of the corresponding system/algorithm using synthetic data. The results show that the privacy preserving training and testing of kernel-based machine learning algorithms is possible with different settings and the privacy preserving inference on a pre-trained recurrent kernel network is feasible using CECILIA. Additionally, CECILIA also allows the exact area under curve computation to evaluate the performance of a machine learning algorithm without compromising privacy.

Das Dokument erscheint in: