Effective training and efficient decoding for statistical machine translation

Wübker, Jörn; van Genabith, Josef; Ney, Hermann

doi:36435

Effective training and efficient decoding for statistical machine translation = Effektives Training und effizientes Decodieren für statistische maschinelle Übersetzung

Wübker, Jörn

2017

Verantwortlichkeitsangabevorgelegt von Diplom-Informatiker Jörn Wübker

ImpressumAachen 2017

Umfang1 Online-Ressource (xi, 120 Seiten) : Illustrationen, Diagramme

Dissertation, RWTH Aachen University, 2017

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH* ; van Genabith, Josef (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2017-02-02

Online
DOI: 10.18154/RWTH-2017-06573
URL: http://publications.rwth-aachen.de/record/696036/files/696036.pdf
URL: http://publications.rwth-aachen.de/record/696036/files/696036.pdf?subformat=pdfa

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
machine translation (frei) ; generative training (frei) ; discriminative training (frei) ; beam search (frei) ; phrase-based machine translation (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Als statistische maschinelle Übersetzung bezeichnet man die Problemstellung, mit Hilfe von statistischen Modellen Text aus einer natürlichen Sprache in eine andere zu übersetzen. Man kann sie in drei Unterprobleme unterteilen: Modellierung, Suche und Training. Diese Doktorarbeit beschreibt den populärsten Ansatz für statistische maschinelle Übersetzung, die Phrasen-basierte Übersetzung, im Detail und führt Verbesserungen zum aktuellen Stand der Technik in allen drei der oben erwähnten Aspekte ein. Für das Suchproblem werden drei neuartige Techniken zur Sprachmodellvorschau (engl.: language model look-ahead) vorgestellt, die die Zeit- und Speichereffizienz des Suchalgorithmus beträchtlich erhöhen können und unterschiedliche Wirkung auf die Qualität der Ausgabe haben. Ihr Einfluss auf die Qualität und Geschwindigkeit der Übersetzungen, sowie auf die Anzahl von Sprachmodellanfragen und generierten Knoten im Suchgraphen wird detailliert ausgewertet. Wir können zeigen, dass unser endgültiges System die weitverbreitete Software “Moses” in ihrer Übersetzungsgeschwindigkeit Übertrifft. In Bezug auf das Problem der Modellierung erweitern wir den Stand der Technik mit neuartigen Glättungsmodellen, die auf Wortklassen basieren. Auch bei großen Datenmengen gibt es bei statistischen Modellen oft viele Parameter, deren Wert nur aus sehr wenigen Beobachtungen geschätzt werden kann. In dieser Arbeit werden die Standardmodelle des Phrasen-basierten Ansatzes zur statistischen maschinellen Übersetzung mit Hilfe von Wortklassen neu parametrisiert, was zu einer glatteren Wahrscheinlichkeitsverteilung und einer besseren Datenlage zur Parameterschätzung führt. Die Wortklassen können unüberwacht gelernt werden. Der größte Teil dieser Doktorarbeit beschäftigt sich mit dem Trainingsproblem. Wir untersuchen sowohl generative, als auch diskriminative Trainingsverfahren, welche zwei fundamental unterschiedliche Ansätze zum Lernen statistischer Modelle darstellen. Unser generatives Verfahren ist an den Expectation-Maximization-Algorithmus angelehnt und basiert auf einer erzwungenen Alignierung der Trainingsdaten mit dem Suchverfahren, wobei eine “leave-one-out”-Technik angewandt wird um Überanpassung zu vermeiden. Der Vorteil gegenüber der üblichen heuristischen Modellextraktion ist, dass im Training und später in der Suche dieselben Modelle verwendet werden. Diese Technik wird außerdem zu einer Längen-inkrementellen Methode weiterentwickelt, welche nicht mit einem Viterbi-Wortalignment initialisiert wird. Dessen Inkonsistenzen werden daher nicht in die Modelle weiterpropagiert. Sowohl das Lernverfahren, als auch die resultierenden Modelle werden detailliert untersucht. Als diskriminative Trainingsmethode verwenden wir ein Gradienten-basiertes Verfahren, das den erwarteten BLEU-Wert optimiert. Unser neuer wissenschaftlicher Beitrag ist der Einsatz des Resilient-Backpropagation-Algorithmus, dessen Überlegenheit zu mehreren in der Literatur angewandten Techniken experimentell gezeigt wird. Im Vergleich zu früher verwendeten Methoden zeichnet er sich außerdem durch eine signifikant höhere Zeit- und Speichereffizienz aus, so dass wir unser Training auf dem größten Datensatz durchführen können, von dem in der Literatur bisher berichtet wurde. Unsere neuartigen Methoden werden auf großen Datensätzen und in öffentlichen Evaluierungen mit internen und externen Resultaten experimentell verglichen. Dabei zeigt sich, dass insbesondere das Wortklassen-Sprachmodell sowie unser diskriminatives Trainingsverfahren auch für große und moderne System, die dem aktuellen Stand der Technik entsprechen, hilfreiche Erweiterungen darstellen.

Statistical machine translation, the task of translating text from one natural language into another using statistical models, can be divided into three main problems: modeling, search and training. This thesis gives a detailed description of the most popular approach to statistical machine translation, the phrase-based paradigm, and presents several improvements to the state of the art in all three of the aspects mentioned above. Regarding the search problem, we propose three novel language model look-ahead techniques which can considerably increase time efficiency of the algorithm with different quality tradeoffs. They are evaluated in detail with respect to their effect on translation quality, translation speed, number of language model queries and number of generated nodes within the search graph. We can show that our final system outperforms the popular Moses toolkit in terms of translation speed. With regard to the modeling problem we extend the state of the art with novel smoothing models based on word classes. Data sparsity is a common pitfall for statistical models. We leverage word classes that can be learned in an unsupervised fashion in order to re-parameterize the standard phrase-based models, resulting in a smoother probability distribution and reduced sparsity. The largest part of this work is dedicated to the training problem. We investigate both generative and discriminative training methods, two fundamentally different approaches to learning statistical models. Our generative procedure is inspired by the expectation-maximization algorithm and based on force-aligning the training data with the application of the leave-one-out technique to avoid overfitting. Its advantage over the standard heuristic model extraction is that it provides a framework which uses the same consistent models in training and search. The initial technique is further developed into a length-incremental procedure which does not require initialization with a Viterbi word alignment and is thus not biased by its inconsistencies. Both the learning procedure and the resulting models are analyzed in detail. As a discriminative training procedure, we employ a gradient-based method to optimize an expected BLEU objective function. Our novel contribution is the application of the resilient backpropagation algorithm, which is experimentally shown to be superior to several previously proposed techniques. It is also significantly more time and memory efficient than previous work, so that we can run training on the largest data set reported in the literature to date. Our novel techniques are experimentally evaluated against internal and external results on large-scale translation tasks and within public evaluation campaigns. Especially the word class language model and discriminative training procedure prove to be valuable for state-of-the-art large scale translation systems.

OpenAccess:
PDF PDF (PDFA)
(additional files)