h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

The application of source language information in Chinese-English statistical machine translation = Die Anwendung von Informationen der Ausgangssprache in chinesisch-englischer statistischer maschineller Übersetzung



Verantwortlichkeitsangabevorgelegt von Yuqi Zhang

ImpressumAachen : Publikationsserver der RWTH Aachen University 2012

UmfangVIII, 120 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2012

Prüfungsjahr: 2012. - Publikationsjahr: 2013. - Zsfassung in engl. und dt. Sprache


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2012-12-28

Online
URN: urn:nbn:de:hbz:82-opus-46694
URL: https://publications.rwth-aachen.de/record/229648/files/4669.pdf

Einrichtungen

  1. Fachgruppe Informatik (120000)
  2. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)

Inhaltliche Beschreibung (Schlagwörter)
Maschinelle Übersetzung (Genormte SW) ; Vorverarbeitung (Genormte SW) ; Informatik (frei) ; Statistische maschinelle Übersetzung (frei) ; Chinesisch-englische Übersetzung (frei) ; Syntaktische Informationen (frei) ; Umordnung (frei) ; statistical machine translation (frei) ; Chinese-English (frei) ; syntactical information (frei) ; reordering (frei) ; preprocessing (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Dank statistischer Lösungsansätze konnte die Qualität maschineller Sprachübersetzung in den letzten Jahren eine starke Verbesserung erfahren. Gleichzeitig wurden einige Probleme wie abweichende Wortstellungen in Quell- und Zielsprache oder die Mehrdeutigkeit von Übersetzungen fortschreitend weiter erforscht. Das Ziel dieser Arbeit ist die Verbesserung von phrasenbasierten statistischen maschinellen Übersetzungssystemen durch Anwendung syntaktischer Informationen der Quellsprache. Diese Arbeit umfasst folgende Themengebiete: Syntaktische Einheiten (Klassifizierung von Wortkategorien, Segmentierung und Wortstammzuordnung), Umordnungen des Quellsatzes, Behandlung und Analyse nicht zugeordneter Wörter sowie die konsistente zweisprachige Kategorisierung in der Vorverarbeitung. Besonders die Umsortierung von Wörtern über mehrere Positionen (long-distance reordering) stellt eine große Herausforderung in der statistischen maschinellen Übersetzung dar. Zur Angleichung des Quellsatzes an den Zielsatz nahmen wir Umordnungen von syntaktischen Einheiten vor und untersuchten dabei unterschiedliche Ansätze wie Wortkategorien, Wortsegmente und Wortstämme. Wir führten unsere Experimente auf Korpora unterschiedlicher Größe durch und zeigten, dass die Umordnung von Wortsegmenten erfolgreicher als die Umordnung von Worteinheiten ist. Für lange Sätze hingegen liefert die Umordnung von Wortstämmen die besten Resultate. Gleichzeitig halfen die zahlreichen durch die Untersuchungen bereitgestellten Wortumstellungen im weiteren Übersetzungsprozess bei der Behandlung fehlerhafter Wortanordnungen. Auch wenn unsere Experimente für die Chinesisch-Englische Übersetzung durchgeführt wurden, sind die Ergebnisse leicht auf andere Sprachpaare übertragbar. Bei der Anordnung der Wörter treten im Übersetzungsprozess immer wieder nicht-zugewiesene Wörter auf. Dieses Phänomen wird im Allgemeinen mit den Unterschieden der Quell- und Zielsprache erklärt. Wir konnten zeigen, dass einige fehlerhaft gelöschte oder neu hinzugefügte Wörter in der Übersetzungshypothese auf diese nicht-zugeordneten Wörte zurückzuführen sind. Wir stellen zwei einfache Modelle zur Behandlung der am häufigsten nicht zugeordneten Wörter der Quellsprache vor. Durch die Entfernung synsemantischer Wörter (Funktionswörter) aus dem Quellsatz konnten die Übersetzungsergebnisse weiter verbessert werden. In der Vorverarbeitung des phrasenbasierten statistischen Übersetzungssystems werden Wörter wie Datumsangaben oder Zahlen kategorisiert, um den Umfang des Übersetzungsvokabulars zu reduzieren. Die Klassifizierungsregeln werden dabei jeweils für die Quell- bzw. Zielsprache manuell erstellt. Dieses Vorgehen macht die Änderung und Anpassung der Regeln sehr zeitaufwändig und führt oft zu unvorhergesehenen Übersetzungen. Wir entwickelten einen halbautomatischen Ansatz zur Ableitung der chinesischen Klassifizierungsregeln anhand der Wortzuweisungen der englischen Klassifizierungen. Mit dieser Methode ist eine manuelle Änderung der Regeln nur für die englische Seite erforderlich und die chinesischen Regeln können automatisch hergeleitet werden. Dieses Vorgehen führt auch zu einer leichteren Adaption der Klassifizierungen an geänderte Themengebiete und neue Trainingsdaten. Unsere Experimente wurden auf Chinesisch-Englischen Übersetzungsaufgaben unterschiedlicher Größe durchgeführt. Die Resultate wurden mit einen phrasenbasierten Übersetzungssystem auf dem neuesten Stand der Technik verglichen. Das System, welches die Methoden zu Umordnung der Wörter verwendet, wurde erfolgreich für die GALE, NIST und IWSLT Evaluierungen eingesetzt.

The quality of machine translation (MT) has been significantly improved by using statistical approaches. The integration of syntactic knowledge into a statistical MT system is still an open problem. This talk investigates the application of syntactic knowledge of the source language to the phrase-based MT system for translating Chinese into English. In this thesis, particular issues have been addressed: the syntactic units (part-of-speech tags, chunks and trees) reordering of the source sentences; the treatment and analysis of unaligned words in the word alignment from the source side language and the consistent bilingual categorization in the pre-processing. In general the word order of a source language differs from that of the target language. The word reordering, especially the long-distance reordering, is a hard task in statistical machine translation. In order to tackle the reordering problem, this work investigates methods of reducing the number of units to be reordered by forming word groups. Syntactically relevant words are first clustered into syntactic phrases, which are then further reordered. In this work the reordering is modeled using different units such as part-of-speech (POS) tags, syntactic chunks, and trees. These labeled units are reordered using corresponding reordering rules, which are either learned automatically from training data (POS, chunks) or defined manually (trees). The experiments have been carried out on variant corpora sizes and shown that the chunk-based reordering works better than the POS-based method. The tree-based reordering works best on longer sentences. Although the experiments have been performed on Chinese-English translation, the chunk-based reordering is also suitable for other languages which have no good quality tree parser. In addition, our approaches have provided multiple reorderings for the translation system rather than only one reordering, in order to avoid translation errors from false reorderings. Another aspect of this thesis is the analysis of unaligned words. Sometimes a word in the source language has no corresponding translation in the target language, which brings about unaligned words in the word alignment. This work argues that these unaligned words cause translation errors such as word deletions and word insertions. To test this hypothesis, the most frequently unaligned words in the source language are completely deleted (hard deletion) or conditionally deleted (soft deletion). Both approaches result in an improvement in the translation quality. In the pre-processing step of the phrase-based statistical translation system, some words such as dates and numbers are categorized in order to reduce the translation vocabulary. The category rules have been built manually for the source and target languages, respectively. In this way, the modification of the category rules can be very time-consuming and translation output is hard to predict. We have developed a semi-automatic approach to derive the Chinese category rules from the English categories via word alignment. With this approach, a change of the rules only needs to be manually introduced on the English side, and the Chinese rules can be learned automatically. Moreover, this approach makes it easier to adapt the category rules to new domain and new data. The experiments have been carried out on variant sizes of the Chinese-English translation tasks. The results have been compared to the strong baseline of a state-of-the-art phrase-based translation system. The systems with the reordering methods have been successfully applied to the GALE, NIST and IWSLT evaluations.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-144599
Datensatz-ID: 229648

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2014-07-16, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)