h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Diskriminative Modellkombination in Spracherkennungssystemen mit großem Wortschatz



Verantwortlichkeitsangabevorgelegt von Peter Beyerlein

ImpressumAachen : Publikationsserver der RWTH Aachen University 2001

Umfang125 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2000


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2000-10-25

Online
URN: urn:nbn:de:hbz:82-opus-1254
URL: https://publications.rwth-aachen.de/record/60519/files/Beyerlein_Peter.pdf

Einrichtungen

  1. Fakultät für Mathematik, Informatik und Naturwissenschaften (100000)

Inhaltliche Beschreibung (Schlagwörter)
Ingenieurwissenschaften (frei) ; Automatische Spracherkennung (frei) ; Wortschatz (frei) ; Übertragungsfehler (frei) ; Bitrate (frei) ; Diskriminanzanalyse (frei) ; Maximum-Entropie-Methode (frei)

Thematische Einordnung (Klassifikation)
DDC: 620

Kurzfassung
In dieser Arbeit wird die Theorie der Diskriminativen Modellkombination, DMC, entwickelt und für kontinuierliche Spracherkennung mit grossen Vokabularien implementiert. DMC basiert auf dem diskriminativen Training der freien Parameter von Verteilungen, die der Maximum-Entropie-Familie angehoert. Das Verfahren ist modellunabhaengig und erlaubt die automatische Kombination beliebiger und beliebig vieler Modelle. Als Optimierungskriterium wird die geglaettete empirische Wortfehlerrate eingefuehrt. Mit DMC konnte der Hochleistungs-Spracherkenner der Philips-Forschungslaboratorien Aachen auf der Wallstreet-Journal Aufgabe und der Broadcast-News Aufgabe signifikant verbessert werden. Es wird experimentell gezeigt, dass die log-lineare Kombinationsform der linearen Kombinationsform oder einem einfachen Votingverfahren ueberlegen ist. Das Kriterium zur Minimierung der geglaetteten empirischen Wortfehlerrate wird so umformuliert, dass eine geschlossene Loesung fuer die Berechnung der Gewichte der Modellkombination gefunden werden kann. Die Unabhaengigkeit des Verfahrens von der Hierarchie-Ebene der Klassifikationsaufgabe und von den verwendeten Modellen wird gezeigt, indem Verfahren fuer die Balancierung des Sprachmodellfaktors, fuer die log-lineare Kombination von beliebigen akustischen und Sprachmodellen, fuer die log-lineare Kombination multilingualer Phonemmodelle und Phonemklassenmodelle, fuer die Balancierung des Einflusses der Transitionswahrscheinlichkeiten und der Emissionsverteilung der Hidden-Markoff-Modelle, fuer die Schaetzung von Parametern multimodaler Gaussverteilungen sowie fuer die log-lineare Sprachmodellinterpolation abgeleitet werden.

In this work, the theory of Discriminative Model Combination, DMC, is developed and implemented for large vocabulary continuous speech recognition. DMC is based on a discriminative training of the free parameters of distributions belonging to the exponential family. It is independent of the combined models and allows for the automatic combination of any set of models of any kind. The smoothed empirical word error rate is exploitet as optimization criterion. Using the DMC method the LVCSR system of Philips Research Laboratories Aachen could be improved significantly on the Wallstreet-Journal Task and on the Broadcast-News Task. It is shown experimentally, that the log-linear functional form of the model combination outperforms a linear form and a simple voting scheme. In addition, the smoothed empirical word error rate criterion is reformulated in a way, which allows to compute the weights of the model combination in a closed form. DMC is independent of the hierarchical level of the classification task and of the applied models. This is shown by deriving algorithms for the balancing of the language model weight, for the log-linear combination of any acoustic and language models, for the log-linear combination of multilingual phoneme models and phoneme class models, for the balancing of the influence of transition probabilities and the emission distribution of the Hidden-Markov-Models, for the estimation of the free parameters of multivariate gaussian distributions as well as for the log-linear language model interpolation.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
German

Externe Identnummern
HBZ: HT013019293

Interne Identnummern
RWTH-CONV-122224
Datensatz-ID: 60519

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > No department assigned
Publication server / Open Access
Public records
Publications database
100000

 Record created 2013-01-28, last modified 2022-04-22


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)