h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Sequence segmentation for statistical machine translation = Sequenzsegmentierung für statistische maschinelle Übersetzung



Verantwortlichkeitsangabevorgelegt von Jia Xu

ImpressumAachen : Publikationsserver der RWTH Aachen University 2010

UmfangI, 117 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2010

Zsfassung in engl. und dt. Sprache


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2010-09-10

Online
URN: urn:nbn:de:hbz:82-opus-34384
URL: https://publications.rwth-aachen.de/record/63836/files/3438.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Statistik (Genormte SW) ; Übersetzung (Genormte SW) ; Maschinelles Lernen (Genormte SW) ; Segmentierung (Genormte SW) ; Sequenz (Genormte SW) ; Informatik (frei) ; Maschinelle Übersetzung (frei) ; Mustererkennung (frei) ; machine translation (frei) ; pattern recognition (frei) ; statistic (frei) ; segmentation (frei) ; machine learning (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Menschliche Sprache besteht aus Sequenzen sinnvoller sprachlicher Einheiten. Diese Einheiten können Wörter, Phrasen, Sätze oder Artikel sein, die als Basiselemente in der Kommunikation und als Komponenten für die maschinelle Modellierung dienen. Allerdings sind die Definitionen von einigen Sequenzen wie der von Phrasen und chinesischer Wörter nicht eindeutig, da keine Trennsymbole im Text existieren. Dies stellt eine Anforderung an viele Sprachverarbeitungsaufgaben dar, zum Beispiel in der maschinellen Übersetzung. Wenn ein Text automatisch von einer Sprache in eine andere Sprache übersetzt wird, kommen die Sequenzen paarweise in beiden Sprachen vor. Eine wesentliche Aufgabe ist die Erkennung der Sequenzen in der Quellsprache und deren entsprechenden Übersetzungen. Diese Arbeit stellt Lösungen der Probleme der einsprachigen und zweisprachigen Sequenzsegmentierung für die statistische maschinelle Übersetzung vor, die sich auf die Segmentierung und Alignierung von Wörtern, Phrasen, Sätzen und Dokumenten beziehen. Wörter im chinesischen Text sind nicht durch Separatoren getrennt, was die chinesische Sprache von den meisten europäischen Sprachen unterscheidet. Ein allgemein verwendeter Ansatz in der chinesisch-englischen Übersetzung ist die Verwendung von expliziter Wortsegmentierung, indem die chinesischen Wörter erst segmentiert und dann mit dem Standardverfahren übersetzt werden. Diese Art der Wortsegmentierung ist nicht notwendigerweise optimal für die Übersetzung. Wir setzen eine halb-überwachte Wortsegmentierung ein, die einsprachige und zweisprachige Informationen berücksichtigt, um eine geeignete Segmentierung für die Übersetzung abzuleiten. Die Alignierung und Segmentierung von Wörtern werden durch das sogenannte „Gibbs Sampling” gleichzeitig trainiert. Neue Wörter werden nach dem Prinzip des Bayes'schen Lernen generiert. Darüber hinaus werden unterschiedliche Wortsegmentierungen in einem Wortgraph repräsentiert und bei der Suche nach der besten Übersetzung berücksichtigt. Die Segmentierungsentscheidung ist auf diese Weise in die Dekodierung integriert. Die Phrasenpaare, die als Sequenzen von Wörtern und deren Übersetzungen definiert werden, bilden ein weiteres Kernelement im Aufbau des Übersetzungssystems. Im Standardverfahren sind die Phrasenpaare heuristisch extrahiert basierend auf der besten Wortalignierung, während die zugrunde liegenden Wortalignierungsmodelle verworfen werden. Um diese Information einzubeziehen, führen wir ein Mixture-Modell ein, das unterschiedliche Modellableitungen kombiniert. Verschiedene Extrahierungsprozesse und Ressourcen können zur Generierung der Phrasenpaare beitragen. Parallele Sätze und domänspezifische Korpora, die im Training verwendet werden, sind für die Leistung des datengetriebenen Übersetzungssystems von entscheidender Bedeutung. Wir werden daher einen neuartigen Ansatz vorstellen, mit dem wir die satzalignierten Daten erhalten, indem wir die zweisprachigen Dokumente rekursiv in zwei Teile aufteilen. Diese Methode übertrifft die Leistung der allgemeinen Satzalignierungsmethoden und setzt keine Ankerwörter an den Satzgrenzen voraus, was besonders interessant für Transkriptionstexte ist. Darüber hinaus führt die Verkürzung von langen Satzpaaren zu einem effizienteren Training und zu einer höheren Qualität in der Wortalignierung. Da immer größere Mengen an Trainingsdaten einbezogen werden, gibt es einen größeren Bedarf an Domänenanpassungen. Wir diskutieren Clusteralgorithmen, um domainabhängige Sprachmodelle und Übersetzungssysteme aufzubauen. Die vorgeschlagene Methode fordert viel weniger zweisprachige Daten als normalerweise für den Aufbau eines domainabhängigen Systems verwendet werden. Dieses Verfahren ist einfach und effizient, um viele Domänen zu erfassen. Abschließend werden wir die Ergebnisse der Experimente der oben genannten Methoden vorstellen. Die Qualität im Bereich der chinesisch-englischen Übersetzungsaufgaben ist gegenüber dem Stand der Technik signifikant verbessert worden und das Modelltraining ist effizienter. Weiterhin werden wir zeigen, dass es ein besseres Übersetzungsmodell gibt, das direkt die chinesischen Zeichen statt der chinesischen Wörter übersetzt.

In the last decade, while statistical machine translation has advanced significantly, there is still much room for further improvements relating to many natural language processing tasks such as word segmentation, word alignment and parsing. Human language is composed of sequences of meaningful units. These sequences can be words, phrases, sentences or even articles serving as basic elements in communication and components for computational modeling. However, in monolingual text some sequences are not naturally separated by delimiters, and in bilingual text both sequence boundaries and their corresponding translations can be unlabeled. This work addresses solutions of sequence segmentation and alignment for statistical machine translation, including the following topics: Chinese word segmentation: Different from the explicit word segmentation in trivial approaches, I introduce integrated Chinese word segmentation, where segmentation and alignment of words are trained jointly, and the decoding is performed on the lattice composed of alternative word segmentations. I show that direct translation on Chinese characters can achieve even better translation performance than translation on Chinese words;Phrase training: Currently phrases are extracted in a heuristic way. I propose a mixture phrase pair model which is trained discriminatively allowing to combine multiple extraction processes and various resources, especially the underlying word alignment models discarded in the standard approach;Parallel sentence exploitation: Training corpus acquisition is crucial for a data-driven translation system. I propose a maximum-entropy model where document pairs are partitioned recursively into sentence pairs using 'binary segmentation' without any requirement on sentence boundary markers;Domain adaptation: A hierarchical clustering algorithm is applied to classify the training data into distinct domains. Domain specific language models and translation models are then combined to build a domain dependent system, and domain priors are estimated with a minimum error rate training.Experimental results on state-of-the-art, large-scale Chinese-English tasks show that the training speed can be increased with a factor of four and each above mentioned method leads to an enhancement of the translation quality up to 6% relatively.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-125251
Datensatz-ID: 63836

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2013-01-28, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)