h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Domain adaptation for statistical machine translation



Verantwortlichkeitsangabevorgelegt von M.Sc. Computer Science Saab Mansour

ImpressumAachen 2017

Umfang1 Online-Ressource (ix, 112 Seiten) : Illustrationen


Dissertation, RWTH Aachen University, 2017

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2018


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2017-05-19

Online
DOI: 10.18154/RWTH-2018-223849
URL: http://publications.rwth-aachen.de/record/722928/files/722928.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
In dieser Dissertation wird ein allgemeines Verfahren zur Anpassung von statistischer maschineller Übersetzung (SMT) an eine vorgegebene Domäne entwickelt und untersucht. Das Verfahren basiert auf der Nutzung der verfügbaren Domänen-relevanten Trainingsdaten, sowie einem Bewertungssystem für die Differenzierung von Trainingsinstanzen aus anderen Domänen. Angepasst werden eine Reihe von verschiedenen Modellen aus dem Übersetzungsprozess, aber der Schwerpunkt liegt auf der weniger erforschten Adaption des Phrasenmodells. Das Sprachmodell wird in vielen Anwendungen genutzt, wie z.B. der Spracherkennung und der Schrifterkennung, und die Domänenanpassung dieses Modells wurde bereits ausgiebig erforscht. Ein bestehendes, Domänen-unspezifisches System so abzuändern, dass es auf Evaluierungsdaten aus einer vorgegebenen Zieldomäne bessere Ergebnisse liefert, bezeichnet man als Domänenanpassung oder Domänenadaption. Zur Erfüllung dieser Aufgabe wurde in der Vergangenheit vorgeschlagen, Trainingsdaten unterschiedlich zu gewichten. Besonders hervorzuheben ist frühere Forschung, in der Sprachmodellperplexitäten für die Gewichtung angewandt wurden. In dieser Arbeit wird ein allgemeines Verfahren für diese Gewichtung eingeführt. Darüber hinaus werden einige neuartige Bewertungsmodelle für die Gewichtung entwickelt, die auf Übersetzungsmodellen basieren. Wir untersuchen die Annahme, dass Übersetzungsmodell-Bewertungen für die Anpassung von Übersetzungsmodellen relevanter sind als Bewertungen durch das Sprachmodell, da sie bilinguale Abhängigkeiten, die für die Übersetzung wichtig sind, besser beschreiben. Der Hauptteil dieser Dissertation beinhaltet die Entwicklung von verschiedenen Bewertungskriterien für die Anpassung. Neu sind unter anderem die Verwendung von Perplexitäten des IBM-1 Modells, sowie die noch stärker hervorzuhebende Entwicklung einer Methode zur Bewertung der Relevanz für die Zieldomäne mithilfe des Übersetzungsmodells. Die Methoden werden durchgehend auf weitverbreiteten Arabisch-Englischen und Deutsch-Englischen Datensätzen untersucht, wobei signifikante Verbesserungen der Übersetzungsqualität beobachtet werden. Ein Nachteil des Verfahrens ist die Abhängigkeit von Domänen-relevanten Trainingsdaten. Adaption ohne explizite bilinguale Domänen-relevante Trainingsdaten wird in dieser Arbeit ebenfalls untersucht. Hierzu werden monolinguale Testdaten aus der Quellsprache verwendet, um die Domäneneinteilung vorzunehmen. Wir zeigen, dass die neuartige Anwendung von automatisch übersetzten Testdaten aus der Quellsprache ein SMT-System verbessern kann, das dem aktuellen Stand der Technik entspricht. Weiterhin erweitern wir den Begriff der Domäne mit Dialektinformation. In dieser Arbeit wird insbesondere die Übersetzung aus dem ägyptischen Dialekt der arabischen Sprache nach Englisch angegangen. Die von uns entwickelte Dialekt-Klassifizierungsmethode erreicht wettbewerbsfähige Genauigkeit. Der Klassifizierer wird dann in mehreren Techniken angewandt, um ein unspezifisches SMT-System zu adaptieren, und es werden Verbesserungen gezeigt. Zuletzt wird unsere Forschung zur Segmentierung der arabischen Sprache für maschinelle Übersetzung präsentiert. Arabisch ist eine morphologisch anspruchsvolle Sprache. Jedes Wort besteht aus mehreren Morphemen, die mehreren englischen Wörtern entsprechen. In dieser Dissertation implementieren wir verschiedene Segmentierungschemata und -modelle. Wir zeigen, dass die Qualität der Segmentierungsmethoden je nach Domäne variiert, und dass das Schema sorgfältig durchdacht werden muss, um die bestmögliche Performanz sicherzustellen. Es wird eine Strategie zur Kombination verschiedener Modelle vorgestellt und das optimale Vorgehen hierbei erörtert.

In this thesis we develop and evaluate a general framework for domain-adaptation of statistical machine translation (SMT) systems. The framework relies on the availability of in-domain training data and a scoring scheme to differentiate the other-domain training instances. Adapted models include various models used in the translation process, but more focus is given to the less researched phrase model adaptation. The language model is utilized in many applications, e.g. speech recognition and character recognition, and domain adaptation has been extensively researched for this model. Domain-adaptation is the task of adapting an existing general-domain system to perform better on a target domain evaluation set. Weighting the training data has been proposed in the past to perform domain adaptation. Prominent previous work used language model perplexities to perform the scoring. We present a general framework to perform the weighting. Moreover, we develop few novel scoring models that rely on translation models scores to perform the scoring. We hypothesize that for translation model adaptation, translation model scores are more relevant than language model scores as the former captures bilingual dependencies which are fundamental for the translation task. The main part of the thesis includes the development of few scoring schemes for adaptation. Novelties include the usage of IBM Model~1 perplexities, and more prominently, developing a method to generate translation model scores representing relatedness to the target domain. The methods are evaluated consistently on competitive Arabic-to-English and German-to-English translation tasks and significant improvements in translation quality are reported. A limitation of the framework presented is the reliance on in-domain training data. We tackle the scenario where no explicit bilingual in-domain training data exists to perform adaptation. We rely on monolingual source test data to induce the domain and show that the novel usage of automatic translations of the source test data can improve over a state-of-the-art SMT system. We expand the notion of domain to include information about dialects. In our setup we tackle the translation of dialectal Egyptian Arabic to English. A dialect classifier is developed within this work achieving state-of-the-art classification accuracy. The classifier is then used in several techniques to perform adaptation of a general SMT system and improvements are reported. Finally, we present work on Arabic segmentation for machine translation. Arabic is a morphologically rich language, where each word is composed of several morphemes that correspond to several words in English. Different segmentation schemes and models are implemented within this work. We show that the performance of the segmentation schemes varies according to the domain and a careful design of a scheme is required to perform best on a given domain. A combination strategy is then presented and best practices of performing the combination are discussed.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT019681120

Interne Identnummern
RWTH-2018-223849
Datensatz-ID: 722928

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2018-04-30, last modified 2023-10-16


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)