h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Monotone string-to-string translation for NLU and ASR tasks = Monotone Zeichenkettenübersetzung für Spracherverstehens- und Spracherkennungssaufgaben



Verantwortlichkeitsangabevorgelegt von Stefan Hahn

ImpressumAachen : Publikationsserver der RWTH Aachen University 2015

UmfangXIV, 172 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2014


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2014-11-13

Online
URN: urn:nbn:de:hbz:82-opus-52835
URL: https://publications.rwth-aachen.de/record/462793/files/5283.pdf
URL: https://publications.rwth-aachen.de/record/462793/files/5283.pdf?subformat=pdfa

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Maschinelle Übersetzung (Genormte SW) ; Sprachverstehen (Genormte SW) ; Automatische Spracherkennung (Genormte SW) ; Informatik (frei) ; conditional random fields (frei) ; grapheme-to-phoneme conversion (frei) ; concept tagging (frei) ; ASR (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Innerhalb annähernd aller heutigen Aufgaben in den Bereichen des automatischen Sprachverstehens als auch der automatischen Spracherkennung spielen monotone Wort-zu-Wort Übersetzungsprobleme eine große Rolle. In dieser Arbeit werden zwei dieser Probleme (Konzept-Tagging und Graphem-zu-Phonem Konvertierung) näher untersucht und die Übersetzungsqualität mittels sogenannter Conditional Random Fields verbessert. Konzept-Tagging ist üblicherweise eines der ersten Module innerhalb eines Dialog-Systems oder eines Systems zum Sprachverstehen. Zur Informationsextraktion wird hier das Erkennungsergebnis eines Spracherkennungssystems mit aufgaben- und domänenabhängiger semantischer Information angereichert. Sechs verschiedene Ansätze zur Lösung des Konzept-Tagging Problems werden in dieser Arbeit miteinander verglichen und auf drei verschiedenen Aufgaben und Sprachen auf verschiedenen Ebenen experimentell bewertet. Betrachtet werden sowohl der Unterschied in der Performanz zwischen manueller Transkription im Vergleich zu Hypothesen generiert von einem automatischen Spracherkenner als Eingabe als auch die Auswertung auf der Ebene von Attributnamen und Attributwerten. Unabhängig von der Aufgabe und der Sprache führen Ansätze basierend auf Conditional Random Fields zu den besten Ergebnissen. Auf der bekannten französischen MEDIA Aufgabe konnte mit Hilfe dieser Technik eine Konzeptfehlerrate von 12.6% erreicht werden. Dies entspricht einer Verbesserung von 35% relativ gegenüber der besten, publizierten Fehlerrate innerhalb der MEDIA Evaluierungskampagne von 2005 in der sogenannten „relaxed-simplified” Bedingung (19.6%).Zusätzlich zu Verbesserungen gegenüber dem klassischen Conditional Random Fields Ansatz, z.B. ein modifiziertes Trainingskriterium, werden Systemkombinationsergebnisse mittels der sogenannten ROVER Methode (recognizer output voting error reduction) vorgestellt, welche nochmals die Konzeptfehlerrate reduzieren konnten. Ferner wurde eine Kombination von regelbasierter und statistischer Attributwerteextraktion entwickelt, durch die Verbesserungen gegenüber den regelbasierten Ausgangswerten erzielt werden konnten. Das zweite Problem aus dem Bereich der Wort-zu-Wort Übersetzungen beschäftigt sich mit der Graphem-zu-Phonem Konvertierung. Ziel ist es, die Aussprache eines gegebenen Wortes automatisch zu bestimmen. Mittels eines solchen Konvertierungsmoduls kann ein Aussprachelexikon eines automatischen Spracherkenners mit z.B. Eigennamen oder domänenspezifischen Wörtern ergänzt werden, welche sich auch im Laufe der Zeit ändern können. Von einem konzeptuellen Standpunkt aus gesehen, ist der Unterschied zwischen dieser und der Konzept-Tagging Aufgabe der, dass eine Alignierung zwischen Graphemen und Phonemen entweder vorgegeben oder zusätzlich modelliert werden muss. Im ersten experimentellen Teil zur Grapheme-zu-Phonem Konvertierung werden verschiedene generative Ansäatze zur Lösung dieses Problems verglichen und experimentell auf großen Aussprachelexika in verschiedenen Sprachen ausgewertet. Um Conditional Random Fields erfolgreich anzuwenden, bedurfte es der Implementierung und Herleitung einer Reihe von Modifikationen und Techniken, um die Rechenintensität der Algorithmen zu reduzieren. Das Alignierungsproblem wurde dadurch bewältigt, dass entweder ein externes Modell zur Bestimmung des Alignments eingesetzt wurde oder das Problem direkt innerhalb der Conditional Random Fields mit Hilfe einer verstecken Variable integriert wurde (Hidden Conditional Random Field). Mit Hilfe dieser Modifikationen konnten auf einigen englischen Aussprachelexika Ergebnisse erzielt werden, die dem heutigen Stand der Technik entsprechen. In einem zweiten experimentellen Teil wurde ein Modul zur Graphem-zu-Phonem Konvertierung mittels Hidden Conditional Random Fields trainiert und innerhalb eines automatischen Spracherkenners verwendet. Die Ergebnisse wurden mit einem Graphem-zu-Phonem Konvertierungsmodul verglichen, welches mittels sogenannten zusammengefügten n-grammen trainiert wurde (joint n-grams), was dem de-facto Standard entspricht. Mit beiden Methoden wurden Wörter, die nicht im Hintergrundlexikon waren, phonetisiert und dem Erkennerlexikon hinzugefügt. In einem umfassenden Vergleich auf verschiedenen Testkorpora aus den englischen QUAERO Aufgaben ist die Wortfehlerrate von Spracherkennungssystemen mit einem auf Hidden Conditional Random Fields-basierten Graphem-zu-Phoneme Konvertierungsmodul um 1-3% kleiner als mit einem generativen joint-n-gram Ansatz. Die Spracherkennungssysteme unterscheiden sich dabei lediglich um das Graphem-zu-Phonem Konvertierungsmodul. Zusammenfassend konnten für beide betrachteten Probleme Methoden basierend auf (Hidden) Conditional Random Fields entwickelt und angewendet werden, die den aktuellen Stand der Technik übertreffen.

Monotone string-to-string translation problems have to be tackled as part of almost all state-of-the-art natural language understanding and large vocabulary continuous speech recognition systems. In this work, two such tasks will be investigated in detail and improved using conditional random fields, namely concept tagging and grapheme-to-phoneme conversion. Concept tagging is usually one of the first modules within a dialogue or natural language understanding system. Here, the recognition result of a speech recognition system is augmented with task and domain dependent semantic information. Within this work, six different approaches are compared and evaluated on three different tasks in various languages on several levels. Considered are manual transcriptions versus speech recognition hypotheses as input as well as attribute name and attribute value level tags as output. By using an improved approach based on conditional random fields, the best results on all tasks and languages could be achieved. On the well-known French MEDIA task, conditional random fields lead to a concept error rate of 12.6% for attribute name and value extraction, which is a 35% relative improvement over the best published result within the MEDIA evaluation campaign in 2005 in the relaxed-simplified condition with 19.6%. The improvements over the classical conditional random fields-based approach as for example the introduction of a modified training criterion are discussed in detail. Additionally, recognizer output voting error reduction is applied as a system combination technique which could further reduce the concept error rate. A combination of rule-based and statistical attribute value extraction based on conditional random fields could be developed to improve over the standard rule-based baseline. The second monotone string-to-string translation task covers grapheme-to-phoneme conversion. Here, the pronunciation of a given word is derived automatically. With such a conversion module, it is possible to augment pronunciation dictionaries for speech recognition with e.g. named entities or other domain specific words, which might change over time. From a conceptual point, the main difference between this task and concept tagging is that an alignment between source and target side has to be modelled or given. In a first series of experiments, various state-of-the-art generative grapheme-to-phoneme conversion approaches are compared and evaluated on large pronunciation dictionaries in various languages. For the application of conditional random fields, a number of features and techniques to reduce computational complexity had to be implemented and derived. The alignment problem has been tackled by either using an external model or integrating a hidden variable within the conditional random fields training process. Using these modifications, state-of-the-art accuracy results could be achieved on a couple of English pronunciation dictionaries. Additionally, state-of-the-art speech recognition systems have been trained using a grapheme-to-phoneme conversion module based on hidden conditional random fields and compared with speech recognition systems where a joint-n-gram approach has been used to provide pronunciations for words which are not part of the background lexicon. In an extensive comparison across several test sets from the English QUAERO tasks, the word error rate for speech recognition systems utilizing hidden conditional random fields could outperform the systems using the generative joint-n-gram based approach by 1-3% relatively. Note that the automatic speech recognition systems only differ by the grapheme-to-phoneme conversion system. In summary, for both tasks considered in this thesis, methods based on (hidden) conditional random fields could be derived outperforming state-of-the-art approaches.

OpenAccess:
Download fulltext PDF Download fulltext PDF (PDFA)
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Externe Identnummern
HBZ: HT018551953

Interne Identnummern
RWTH-CONV-207011
Datensatz-ID: 462793

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2015-02-09, last modified 2023-11-20