Loading…
Thumbnail Image

Bag of Machine Learning Concepts for Visual Concept Recognition in Images

Binder, Alexander

Die Dissertation behandelt die Erkennung visueller Konzepte auf Bildern mit Hilfe von Methoden des statistischen maschinellen Lernens. Ziel der Erkennung im Rahmen dieser Dissertation ist es, einem Bild für jedes visuelle Konzept einen reellen Wert zuzuweisen, der einem Maß für eine (nicht probabilistischen) Konfidenz in das Vorhandensein des Konzeptes in diesem Bild entspricht. Derartige reellwertige Vorhersagen können für Klassifikation von Bildern und für die Rangsortierung benutzt werden. Unter Rangsortierung wird in dieser Arbeit die Anordnung der Bilder entsprechend der Konfidenzen für ein vorgegebenes Konzept verstanden. Diese Dissertation behandelt den allgemeinen Fall, bei dem ein visuelles Konzept implizit definiert wird durch die Vorgabe einer Menge von Bildern, die ein solches Konzept aufweisen. Im ersten Teil der Dissertation werden Modelle betrachtet, die hierarchische Verlustfunktionen minimieren, welche durch Taxonomien über der Menge der visuellen Konzepte definiert werden. Im Unterschied zu vorangegangenen Publikationen liegt der Schwerpunkt nicht auf Geschwindigkeit der Evaluation eines Bildes, sondern auf verbesserter Rangsortierungs- und Klassifikationsgenauigkeit unter Maßen, die von der Taxonomie abgeleitet sind. Dazu werden die Vorhersagen aller Kanten im Taxonomie-graphen mit Hilfe von sogenannten p-means kombiniert anstelle wie bei vorangegangenen Arbeiten nur die lokal optimalen Kanten. Weiterhin werden die hierarchischen Modelle derart verallgemeinert, dass sie für Multilabel Probleme, bei denen jedes Bild mehrere visuelle Konzepte aufweisen kann, alle vorhandenen visuellen Konzepte vorhersagen können und zur Rangsortierung verwendet werden können. Des weiteren wird das average precision Rangsortierungsmass verallgemeinert, so dass Information aus der Taxonomie zur Berechnung der Genauigkeit der Rangsortierung benutzt wird. Die entwickelten Verfahren werden gegen strukturierte Vorhersagemodelle und einer-gegen-alle Klassifikationsmodelle verglichen. Im zweiten Teil der Dissertation wird das non-sparse multiple kernel learning (MKL) auf dem Rangsortierungsproblem auf Bildern untersucht und gegen support vektor maschinen mit einem gemittelten Kern, welche keine Kombination von Merkmalen lernen, und dem $\ell_1$-Norm multiple kernel learning, welches nur eine sehr kleine Anzahl von Merkmalen auswühlt, verglichen. In empirischer Hinsicht wird dies auf den Datensätzen der PASCAL VOC 2009 Classification and ImageCLEF2010 Photo Annotation Wettbewerbe durchgeführt. Es wird gezeigt, dass das non-sparse MKL bei Durchführung von Modellselektion gleich gute oder bessere Ergebnisse als support vektor maschinen mit einem gemittelten Kern liefert, im Unterschied zu $\ell_1$-Norm MKL, welches oft schlechtere Ergebnisse liefert als die support vektor Maschinen mit einem gemittelten Kern. In theoretischer Hinsicht werden Faktoren identifiziert, die potentielle Verbesserungen durch das Lernen der Kombination von Merkmalen begrenzen, sowie Faktoren, die dazu führen, dass das non-sparse MKL im Schnitt dennoch die besten Ergebnisse liefert.
This thesis deals with the recognition of visual concepts on images using statistical machine learning. Recognition is treated here as classification task with continuous predictions. The continuous predictions can be used to generate a ranking of images and thus will be often evaluated in a ranking setting. Ranking means that for a given visual concept the set of all test images will be sorted according to the prediction in a descending order and evaluated using a ranking measure. This dissertation treats the general case of visual concepts in which concepts are defined explicitly by a set of images. The aim is multi-label classification in which for one image all present concepts are to be predicted. The challenge compared to highly specialized tasks such as face recognition is the ability to deal with a generic set of visual concepts which are defined by the training data. In the first part of the dissertation models are considered which are capable of minimizing hierarchical loss functions which are induced by taxonomies over the set of all visual concepts. The idea is that a taxonomy defines a prioritization of classification and ranking errors. The goal is to avoid errors which originate from confusing concepts which are distant under the given taxonomy. One example is a system which annotates images such that it returns for a request of dogs in case of absence of dogs or in case of error rather images of cats than images of cars. In contrast to preceding publications the focus lies not on speed during testing time but on improved classification and ranking performance under the hierarchical loss. The developed model aggregates the votes of all edges in the taxonomy, not only those of the locally best or shortest path. Furthermore the hierarchical models are generalized such that they can be predict multiple labels for multi-label ranking problems in which each image can have more than one visual concept. Previous approaches based on greedy walks along the edges of the hierarchy are able to predict only the most likely concept. In the context of multi-label ranking we define also a ranking measure which incorporates taxonomical information. The developed model is compared against one-versus-all and structured prediction baselines. In the second part of the dissertation the non-sparse multiple kernel learning (MKL) is analyzed for multi-label ranking of images. It is compared against average kernel support vector machines (SVMs) and sparse $\ell_1$-norm MKL. For the empirical part the performance of these methods is evaluated on the Pascal VOC2009 Classification and ImageCLEF2010 Photo Annotation datasets. It is shown that when using model selection in a practical setup, non-sparse MKL yields equal or better results compared to the average kernel SVM which does not learn feature combinations, in contrast to sparse $\ell_1$-norm MKL which yields worse results. For the theoretical part limiting and promoting factors for the performance gains of non-sparse MKL when compared to the other methods are identified.