Loading…
Thumbnail Image

Towards Automatic Face Recognition in Unconstrained Scenarios

Sarfraz, Muhammad Saquib

Gesichtserkennung als aktiver Forschungsbereich der letzten zwei Jahrzehnte stellt immer noch viele Herausforderungen dar. Aktuelle Gesichtserkennungs-Systeme liefern nur befriedigende Ergebnisse unter kontrollierten Bedingungen. Die Erkennungsgenauigkeit lässt signifikant nach, wenn sie mit Änderungen von Blickwinkel, Beleuchtung und Fehlausrichtung konfrontiert werden. Das Hauptziel dieser Dissertation ist das Erforschen und Entwickeln neuer Methoden für ein vollautomatisches Gesichtserkennungs-System, welches in unkontrollierten Umgebungen arbeiten kann. Im ersten Teil wird eine Merkmalsbeschreibung eingeführt, die robuster als ein pixel-basierter Ansatz ist. Sie ist invariant bezüglich Fehlausrichtung bei nicht perfekter Lokalisierung der Gesichter. Für die Mehrbild-Gesichtserkennung wird ein vollständiger Leistungsvergleich verschiedener Klassifikatoren in unterschiedlichen Merkmalsräumen präsentiert. Viele neue Ansätze befürworten die Berechnung von künstlichen Bildern aus verschiedenen Ansichten für ein gegebenes Gesichtsbild, um eine betrachtungsinvariante Erkennung zu realisieren. In ausführlichen Experimenten wird die Schwäche existierender Gesichtserkennungs-Systeme für kleine Mustergrößen demonstriert. Um die Erkennung zu verbessern, wird ein Schema zur Kombination von Klassifikatoren für verschiedene Merkmalsräume vorgeschlagen. Im zweiten Teil der Arbeit stellen wir ein neues System zur Schätzung der Kopfhaltung vor. Die Blickwinkelinformation ist nützlich und für ein vollautomatisches Gesichtserkennungs-System muss die Ansicht in den Eingangsbildern bekannt sein. Das vorgeschlagene Blickwinkelschätzungs-System funktioniert bei hohen Beleuchtungs- und Ausdrucksänderungen. In diesem Zusammenhang haben wir eine neue Merkmalbeschreibung mit dem Namen LESH eingeführt, welche die zugrunde liegende Form beinhaltet und unempfindlich bezüglich der Hautfarbe und verschiedener Beleuchtungen ist. Basierend auf der vorgeschlagenen LESH Merkmalsbeschreibung, wird ein generischer Ähnlichkeitsraum generiert, welcher nicht nur eine effektive Dimensionalitäts-Reduzierung sondern auch viele repräsentative Vektoren für einen bestimmten Testmerkmalsvektor bietet. Dieser wird verwendet, um Wahrscheinlichkeiten für verschiedene Blickwinkel zu generieren, ohne explizit die zugrunde liegende Dichte zu schätzen, was sehr nützlich für die nachfolgende Gesichtserkennung unter verschiedenen Blickwinkeln ist. Im dritten Teil dieser Dissertation integrieren wir das System zur Schätzung der Kopfhaltung mit einem neuen vollautomatischen Gesichtserkennungs-System. Wir stellen eine betrachtungsinvariante Gesichtserkennungsmethode vor, welche nur ein Einzelbild der Person aus einer Galerie zur Erkennung benötigt. Der vorgeschlagene Ansatz konzentriert sich auf das Modellieren von Verbundansichten der Galerie und der Testbilder über verschiedene Ansichten in einem Bayesschen Ansatz. Diese Methode liefert einen vollständigen Posterior über alle möglichen Galeriezuordnungen, welcher auch einfach für Gesichts-Authentifikation genutzt werden kann. Unsere Methode benötigt keine strikte Ausrichtung zwischen der Galerie und dem Testbild, was es verglichen mit den momentanen Methoden besonders attraktiv macht. Die vorgeschlagenen Algorithmen wurden mit mehreren Referenz-Datenbanken ausgewertet, die tausende herausfordernder Bilder mit verschiedenen Variationen bezüglich Ausdruck, Ansicht und Beleuchtung enthalten. Die Ergebnisse zeigen, dass unsere Methoden eine deutliche Verbesserung gegenüber bisherigen Ansätzen darstellen.
Face recognition as an active area of research over the past two decades still poses many challenges. Current face recognition systems yield satisfactory performance only under controlled scenarios and recognition accuracy degrades significantly when confronted with unconstrained situations due to variations such as pose, illumination and misalignments etc. The principal objective of this dissertation is to investigate and introduce new methods towards building a fully automatic face recognition system that can work in unconstrained environments. In the first part we introduce to use a more robust feature description than pixel based appearances that is invariant with respect to misalignments due to non-perfect localization of faces. A thorough performance analysis of many different classifiers on different feature spaces in the context of multi-view face recognition is presented. Many recent approaches advocate the use of generating artificial images at different views for a given face image in order to realize pose invariant recognition. It is demonstrated in an extensive experimental setting the weakness and applicability of existing face recognition systems with respect to small sample size problem in these situations. Furthermore a classifier combining scheme over different feature spaces and different classifier is proposed to improve recognition. In the second part of the thesis we present a novel head pose estimation system. The pose information is valuable and for a fully automatic face recognition system the pose of the incoming image has to be known. The proposed front-end pose estimation system functions in the presence of large illumination and expression changes. In this context we have introduced a new feature description termed as LESH, which encodes the underlying shape and is insensitive to skin color and illumination variations. Based on proposed LESH feature description, we introduced to generate a generic similarity feature space, that not only provides an effective way of dimensionality reduction but also provides us with many representative vectors for a given test feature vector. This is used in generating probability scores for each pose without explicitly estimating the underlying densities, which is very useful in later face recognition across pose scenarios. Finally, in the third part of this dissertation we integrate the head pose estimation system with a novel fully automatic face recognition system. We introduce a pose invariant face recognition method that requires only single image of the person to be recognized, in the gallery. The proposed approach is centered on modeling joint appearance of gallery and probe images across pose in a Bayesian framework. The method provides us with a full posterior over possible gallery matches which can also be easily used for face authentication. Our method does not require any strict alignment between gallery and probe images and that makes it particularly attractive as compared to the existing state of the art methods. The proposed algorithms have been evaluated on a number of benchmark databases, which contain thousands of challenging images with different variations in expression, pose, and illumination. Results indicate that our methods make appreciable improvement over the previous state-of-the-art approaches.