TU Darmstadt / ULB / TUprints

Geometrical aspects of statistical learning theory

Hein, Matthias (2006)
Geometrical aspects of statistical learning theory.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
PDF
Hein-Geometrical_Aspects_of_Statistical_Learning_Theory.pdf
Copyright Information: In Copyright.

Download (2MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Geometrical aspects of statistical learning theory
Language: English
Referees: Schiele, Prof. Dr. Bernt. ; Schölkopf, Prof. Dr. Bernhard
Advisors: Hofmann, Prof. Dr. Thomas
Date: 6 April 2006
Place of Publication: Darmstadt
Date of oral examination: 9 November 2005
Abstract:

Geometry plays an important role in modern statistical learning theory, and many different aspects of geometry can be found in this fast developing field. This thesis addresses some of these aspects. A large part of this work will be concerned with so called manifold methods, which have recently attracted a lot of interest. The key point is that for a lot of real-world data sets it is natural to assume that the data lies on a low-dimensional submanifold of a potentially high-dimensional Euclidean space. We develop a rigorous and quite general framework for the estimation and approximation of some geometric structures and other quantities of this submanifold, using certain corresponding structures on neighborhood graphs built from random samples of that submanifold. Another part of this thesis deals with the generalization of the maximal margin principle to arbitrary metric spaces. This generalization follows quite naturally by changing the viewpoint on the well-known support vector machines (SVM). It can be shown that the SVM can be seen as an algorithm which applies the maximum margin principle to a subclass of metric spaces. The motivation to consider the generalization to arbitrary metric spaces arose by the observation that in practice the condition for the applicability of the SVM is rather difficult to check for a given metric. Nevertheless one would like to apply the successful maximum margin principle even in cases where the SVM cannot be applied. The last part deals with the specific construction of so called Hilbertian metrics and positive definite kernels on probability measures. We consider several ways of building such metrics and kernels. The emphasis lies on the incorporation of different desired properties of the metric and kernel. Such metrics and kernels have a wide applicability in so called kernel methods since probability measures occur as inputs in various situations.

Alternative Abstract:
Alternative AbstractLanguage

Geometrie spielt eine wichtige Rolle in der modernen statistischen Lerntheorie. Viele Aspekte der Geometrie können in diesem sich schnell entwickelnden Feld gefunden werden. Diese Dissertation beschäftigt sich mit einigen dieser Aspekte. Ein großer Teil dieser Arbeit befasst sich mit sogenannten Mannigfaltigkeits-Methoden. Die Hauptmotivation liegt darin, daß es für Datensätze in Anwendungen eine in vielen Fällen zutreffende Annahme ist, daß die Daten auf einer niedrig-dimensionalen Untermannigfaltigkeit eines potentiell hoch-dimensionalen Euklidischen Raumes liegen. In dieser Arbeit wird ein mathematisch strenger und allgemeiner Rahmen für die Schätzung und Approximation von geometrischen Strukturen und anderen Größen der Untermannigfaltigkeit entwickelt. Dazu werden korrespondierende Strukturen auf einem durch eine Stichprobe von Punkten der Untermannigfaltigkeit erzeugten Nachbarschaftsgraphen genutzt. Ein weiterer Teil dieser Dissertation behandelt die Verallgemeinerung des sogenannten "maximum-margin"-Prinzips auf allgemeine metrische Räume. Durch eine neue Sichtweise auf die sogenannte "support vector machine" (SVM) folgt diese Verallgemeinerung auf natürliche Weise. Es wird gezeigt, daß die SVM als ein Algorithmus gesehen werden kann, der das "maximum-margin"-Prinzip auf eine Unterklasse von metrischen Räumen anwendet. Die Motivation für diese Verallgemeinerung entstand durch das in der Praxis häufig auftretende Problem, daß die Bedingungen für die Verwendung einer bestimmten Metrik in der SVM schwer zu überprüfen sind. Trotzdem würde man gerne selbst in Fällen in denen die SVM nicht angewendet werden kann das erfolgreiche "maximum-margin"-Prinizp verwenden. Der abschließende Teil dieser Arbeit beschäftigt sich mit der speziellen Konstruktion von sogenannnten Hilbert'schen Metriken und positiv definiten Kernen auf Wahrscheinlichkeitsmaßen. Mehrere Möglichkeiten solche Metriken und Kerne zu konstruieren werden untersucht. Der Schwerpunkt liegt dabei auf der Integration verschiedener gewünschter Eigenschaften in die Metrik bzw. den Kern. Solche Metriken und Kerne haben vielfältige Anwendungsmöglichkeiten in sogenannten Kern-Methoden, da Wahrscheinlichkeitsmaße als Eingabeformate in verschiedensten Situationen auftreten.

German
URN: urn:nbn:de:tuda-tuprints-6733
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science
Date Deposited: 17 Oct 2008 09:22
Last Modified: 07 Dec 2012 11:51
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/673
PPN:
Export:
Actions (login required)
View Item View Item