h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Generative Training and Smoothing of Hierarchical Phrase-Based Translation Models



Verantwortlichkeitsangabevorgelegt von Diplom-Informatiker Stephan Peitz

ImpressumAachen 2017

Umfang1 Online-Ressource (xi, 111 Seiten) : Illustrationen, Diagramme


Dissertation, RWTH Aachen University, 2017

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2017-03-17

Online
DOI: 10.18154/RWTH-2017-09742
URL: http://publications.rwth-aachen.de/record/709157/files/709157.pdf
URL: http://publications.rwth-aachen.de/record/709157/files/709157.pdf?subformat=pdfa

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
generative training (frei) ; hierarchical phrase-based machine translation (frei) ; machine translation (frei) ; punctuation prediction (frei) ; smoothing (frei) ; spoken language translation (frei) ; training (frei) ; translation models (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Die hierarchische phrasenbasierte Übersetzung ist ein bewährter Ansatz in der maschinellen Übersetzung, um zwischen Sprachen mit unterschiedlichen Wortstellungen zu übersetzen. Der erste Teil dieser Dissertation behandelt das Thema der Glättung und des Trainings von Übersetzungsmodellen, die in der hierarchischen Übersetzung verwendet werden. Zusätzlich präsentieren wir eine verbesserte Implementierung des Suchalgorithmus und zeigen, dass diese konkurrenzfähig im Vergleich mit anderen modernen Implementierungen ist. Im zweiten Teil dieser Arbeit schlagen wir vor, hierarchische phrasenbasierte Übersetzung im Kontext der Übersetzung von gesprochener Sprache zu verwenden.Im modernen hierarchischen phrasenbasierten Übersetzungsmodell-Extraktionsprozess werden Übersetzungsregeln und die dazugehörigen Übersetzungswahrscheinlichkeiten aus wortalinierten Trainingsdaten basierend auf einfachen Heuristiken extrahiert. Ein bekanntes Problem ist, dass auch wenn eine große Menge an Trainingsdaten zur Verfügung steht, das erzeugte Übersetzungsmodell unter Datenkargheit leiden kann. Glättung ist ein Ansatz, um dieses Problem zu lösen, und findet bereits Anwendung in anderen Sprachverarbeitungsgebieten (wie zum Beispiel in der Sprachmodellierung). Im Rahmen der maschinellen Übersetzung sollen selten gesehene Übersetzungsregeln besser modelliert werden. In dieser Dissertation untersuchen und vergleichen wir verschiedene Glättungstechniken für die hierarchische phrasenbasierte Übersetzung. Ein weitere Problem ist die Separation des Extraktions- und des Übersetzungsprozesses. Die Extraktion beachtet nämlich nicht, ob eine extrahierte Übersetzungsregel wirklich nützlich im Übersetzungsprozess ist. Um zu lernen, ob eine Übersetzungsregel relevant ist, verfolgen wir den Ansatz der Übersetzung der Trainingsdaten. Dabei wird die Übersetzung eines Quellsatzes gelenkt, so dass der zugehörige Zielsatz generiert wird. Die verwendeten Übersetzungsregeln werden dann gespeichert und die dazugehörigen Übersetzungswahrscheinlichkeiten neu berechnet. Um überhaupt große Mengen von Trainingsdaten zu übersetzen, wird ein effiziente und schnelle Implementierung benötigt. In dieser Arbeit stellen wir eine solche Implementierung zur Neuberechnung von hierarchischen Übersetzungsmodellen vor. Dieser Ansatz ermöglicht uns, kleinere Übersetzungsmodelle zu lernen und gleichzeitig die Übersetzungsqualität zu verbessern.Des Weiteren vergleichen wir unseren Ansatz mit einer anderen modernen Übersetzungsmodell-Trainingsmethode, nämlich das diskriminative Training, im Rahmen einer umfangreichen Evaluierung. Das Sprachpaar ist Chinesisch-Englisch. Die Übersetzung von gesprochener Sprache verbindet automatische Spracherkennung mit maschineller Übersetzung. Da die meisten modernen Spracherkennungssysteme Erkennung ohne Interpunktion und Groß- und Kleinschreibung liefern, müssen diese Information vor dem eigentlichen Übersetzungsprozess wieder eingefügt werden. In dieser Arbeit zeigen wir, dass die Modellierung von Interpunktion und Groß- und Kleinschreibung als maschinelle Übersetzung die Übersetzungsqualität verbessern kann. Wir schlagen außerdem vor, dafür ein hierarchisches phrasenbasiertes Übersetzungssystem zu verwenden, und vergleichen dies mit anderen Ansätzen in einer umfangreichen Evaluierung. Das Sprachpaar ist Englisch-Französisch. Alle Methoden, die in dieser Dissertation beschrieben wurden, sind der Forschungsgemeinschaft frei zugänglich, da diese in die Open-Source-Software Jane integriert worden sind.

Hierarchical phrase-based translation is a common machine translation approach for translating between languages with signicantly dierent word order. The focus of the first part of this thesis is set on smoothing and training of the translation models used in hierarchical translation. Additionally, we present an improved implementation of the search algorithm and show that our implementation is competitive compared to other state-of-the-art hierarchical phrase-based translationengines. Within the second part of this work, we apply hierarchical phrase-basedtranslation in the context of spoken language translation. In the state-of-the-art hierarchical translation model extraction process, translation rules and their corresponding translation probabilities are obtained from word-aligned training data by applying simple heuristics. A common issue is that even if a large set of training data is provided, the resulting translation model may suffer from data sparseness. Smoothing is an approach to remedy this problem and is well-known from othernatural language processing tasks (e.g. languagemodeling). The goal of smoothing applied in the scope of machine translation is to model rarely seen translation rules better. In this thesis, we investigate and compare different smoothing techniques for hierarchical phrase-based translation.Furthermore, the extraction and translation processes are two separated steps. Therefore, the extraction does not take into account whether the obtained translation rules are actually needed in the translation process. To learn whether a translation rule is relevant for the translation process, we pursue the approach of force-decoding the training data. Given a sentence pair of the training data, the translation of the source sentence is constrained to produce the corresponding targetsentence. The applied translation rules are then determined and the corresponding translation probabilities re-estimated. In order to be able to translate a large set of training data, an efficient and fast framework is needed. In this work, we introduce such a framework for re-estimating hierarchical translation models. This approach enables us to obtain smaller translation models while simultaneously improving the translation quality. We further compare our proposed schemewith another state-of-the-art translation model training approach, namely discriminative training, on a large-scale Chinese-to-English translation task.Spoken language translation is the task of translating automatically transcribed speech. Since most automatic speech recognition systems provide transcriptions without punctuation marks and case information, this information has to be re-introduced before the actual translation takes place. In this work, we show that performing punctuation prediction and re-casing by applying a machinetranslation system helps to improve the translation quality. In particular, we propose to apply hierarchical translation rather than phrase-based translation for this task. Finally, experiments were conducted on a large-scale English-to-French spoken language translation task.All methods described in this thesis have been made freely available to the research community as they were integrated into the open-source translation toolkit Jane.

OpenAccess:
Download fulltext PDF Download fulltext PDF (PDFA)
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT019529745

Interne Identnummern
RWTH-2017-09742
Datensatz-ID: 709157

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2017-11-18, last modified 2023-04-08