h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Probabilistic sequence models for image sequence processing and recognition = Probabilistische Sequenzmodelle zur Bildsequenzverarbeitung und -erkennung



Verantwortlichkeitsangabevorgelegt von Philippe Dreuw

ImpressumAachen : Publikationsserver der RWTH Aachen University 2012

UmfangXX, 180, 2 S. : Ill., graph. Darst.


Aachen, Techn. Hochsch., Diss., 2012


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2012-04-27

Online
URN: urn:nbn:de:hbz:82-opus-41162
URL: https://publications.rwth-aachen.de/record/82808/files/4116.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Hidden-Markov-Modell (Genormte SW) ; Hauptkomponentenanalyse (Genormte SW) ; Optische Zeichenerkennung (Genormte SW) ; Mehrschichten-Perzeptron (Genormte SW) ; Objektverfolgung (Genormte SW) ; Viterbi-Algorithmus (Genormte SW) ; American sign language (Genormte SW) ; Nederlandse Gebarentaal (Genormte SW) ; Deutsche Gebärdensprache (Genormte SW) ; Gebärdensprache (Genormte SW) ; Informatik (frei) ; Irish Sign Language (frei) ; object tracking (frei) ; gesture recognition (frei) ; sign language recognition (frei) ; handwriting recognition (frei) ; optical character recognition (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Diese Arbeit untersucht Verfahren zur Erkennung handgeschriebener und maschinengedruckter Texte, zum Verfolgen von sich bewegenden Objekten in Bildsequenzen, als auch zur automatischen Erkennung von kontinuierlicher Gebärdensprache. Um die entsprechenden Probleme zu bearbeiten, untersucht diese Arbeit, welche Konzepte und Ideen aus der automatischen Spracherkennung übernommen und auf Problemstellungen in der Bildsequenzverarbeitung angewendet werden können. Insbesondere wird ein hidden Markov model (HMM) basiertes System zur Bildsequenzerkennung beschrieben, das auf einem System zur Erkennung natürlich gesprochener Sprache auf großem Vokabular basiert. Im Bereich der hand- und maschinengeschriebenen Texterkennung wird das RWTH OCR System präsentiert, das im Rahmen dieser Arbeit neu entwickelt wurde. Es werden einfache erscheinungsbasierte Bildmerkmale in Kombination mit komplexeren Trainingsalgorithmen analysiert. Detaillierte Diskussionen bezüglich diskriminativer Merkmale, diskriminativem Training, als auch bezüglich einem neuen konfidenzbasierten diskriminativen Verfahren zur unüberwachten Modellanpassung werden präsentiert. Ferner erweitern wir das Spracherkennungssystem, um damit kontinuierliche Gebärdensprache zu erkennen. Hierzu bedarf es zusätzlicher Erweiterungen, die es ermöglichen, wichtige Handmerkmale wie Stellung, Bewegung, Ausführungsort, sowie Erscheinungsbild zu modellieren, als auch nicht-manuelle Merkmale, wie Gesichtsausdruck, zu berücksichtigen, da diese elementar in allen betrachteten Gebärdensprachen sind. Zu diesem Zweck präsentieren wir ein vielseitig einsetzbares und modellfreies Verfahren zur Verfolgung von Objekten. Der Algorithmus basiert auf dem Verfahren der dynamischen Programmierung und wird in dieser Arbeit zum Kopf und Hand Verfolgen im Bereich der automatischen Erkennung von Gebärden eingesetzt. Insbesondere ermöglicht eine kontextabhängige Optimierung über Bildsequenzen hinweg das robuste Verfolgen von teilweise verdeckten Objekten. Alle in dieser Arbeit vorgestellten Verfahren werden entweder anhand von Standarddatenbanken evaluiert, oder auf im Rahmen dieser Arbeit neu erstellen und frei verfügbaren Datenbanken. Unser optical character recognition (OCR) System wird auf zahlreichen handgeschriebenen Texten in verschiedenen Sprachen evaluiert. Zusätzlich wurde eine neue Datenbank mit maschinengedruckten arabischen Texten erstellt. Die Methoden zur Objektverfolgung werden auf mehr als 120.000 handannotierten Bildern evaluiert, das Gebärdenspracherkennungssystem wird ebenfalls auf mehreren Datenbanken in unterschiedlichen Sprachen evaluiert. In allen Fällen werden sehr gute Ergebnisse erzielt, die teilweise besser sind, als die bisher in der Literatur bekannter Verfahren.

This PhD thesis investigates the image sequence labeling problems optical character recognition (OCR), object tracking, and automatic sign language recognition (ASLR). To address these problems we investigate which concepts and ideas can be adopted from speech recognition to these problems. For each of these tasks we propose an approach that is centered around the approaches known from speech recognition and adapted to the problem at hand. In particular, we describe our hidden Markov model (HMM) based image sequence recognition system which has been adopted from a large vocabulary continuous speech recognition (LVCSR) framework and extended for tasks. For OCR, we present our RWTH Aachen University Optical Character Recognition (RWTH OCR) system, which has been developed within the scope of this thesis work. We analyze simple appearance-based features in combination with complex training algorithms. Detailed discussions about discriminative features, discriminative training, and a novel discriminative confidence-based unsupervised adaption approach are presented. In automatic sign language recognition (ASLR), we adapt the RWTH Aachen University Speech Recognition (RWTH ASR) framework to account for multiple modalities important in sign language communication, e.g. hand configuration, place of articulation, hand movement, and hand orientation. Additionally, non manual components like facial expression and body posture are analyzed. Most sign language relevant features require a robust tracking method. We propose a multi purpose model-free object tracking framework which is based on dynamic programming (DP), and which is applied to hand and head tracking tasks in automatic sign language recognition (ASLR). In particular, a context-dependent tracking decision optimization over time allows to robustly track occluded objects. The algorithm is inspired by the time alignment algorithm in speech recognition, which guarantees to find the optimal path w.r.t. a given criterion and prevents taking possibly wrong local decisions. All results in this work are either evaluated on standard benchmark databases, or on novel publicly available databases generated within the scope of this thesis work. Our optical character recognition (OCR) system is evaluated on various handwritten benchmark databases and for multiple languages. Additionally, a novel Arabic machine printed newspaper database is presented and used for evaluation. Our dynamic programming tracking (DPT) framework and its different algorithms are evaluated for head and hand tracking in sign languages on more than 120,000 frames of annotated ground-truth data. The ASLR system is evaluated for multiple sign languages, such as American Sign Language (ASL), Deutsche Gebärdensprache (DGS), and Nederlandse Gebaren Taal (NGT), on databases of different visual complexity. In all cases highly competitive results can be achieved, partly outperforming all other approaches known from literature.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-143167
Datensatz-ID: 82808

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2013-01-28, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)