h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Investigations on hierarchical phrase based machine translation = Untersuchung der hierarchischen phrasen-basierten maschinellen Übersetzung



Verantwortlichkeitsangabevorgelegt von David Vilar Torres

ImpressumAachen : Publikationsserver der RWTH Aachen University 2011

UmfangXIII, 145 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2011

Prüfungsjahr: 2011. - Publikationsjahr: 2012


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2011-11-29

Online
URN: urn:nbn:de:hbz:82-opus-40256
URL: https://publications.rwth-aachen.de/record/64613/files/4025.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Maschinelle Übersetzung (Genormte SW) ; Suchverfahren (Genormte SW) ; Informatik (frei) ; machine translation (frei) ; search algorithm (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
In dieser Arbeit wird der hierarchischen phrasenbasierten Ansatz zur maschinellen Übersetzung untersucht, mit besonderem Focus auf das Suchproblem. Heutzutage ist dieser Ansatz einer der meist benutzten Verfahren in der statistischen maschinellen Übersetzung, und somit hilft eine detaillierte Studie bei der Dokumentation und Weiterentwicklung des Stand der Technik in diesem Bereich. Die zwei Algorithmen, die am häufigsten für die Übersetzung mit dem hierarchischen phrasenbasierten Ansatz verwendet werden sind cube pruning und cube growing. Wir untersuchen das Verhalten jedes dieser Algorithmen bezüglich Übersetzungsqualität und der Anforderungen an Rechnergeschwindigkeit und Hauptspeicher. Wir schlagen neue Erweiterungen vor, die die Rechneranforderungen der Übersetzung reduzieren. Diese Erweiterungen ermöglichen uns, den hierarchischen Ansatz für weitere Bereiche anzuwenden, und ermöglichen den Einsatz von größeren Mengen von parallelen Korpora, was wiederum zu einer Verbesserung der Qualität der Übersetzung führt. Drüber hinaus entwickeln wir Erweiterungen des hierarchischen Modells, die zusätzliche, linguistisch motivierte Information in die Übersetzung einbeziehen. Wir vergleichen diese Erweiterungen mit alternativen Ansätze, die von anderen Forschergruppen vorgeschlagen wurden. Durch die Analyse der Vorgehensweise einer dieser Methoden, die zusätzliche Information in Form von syntaktischen Konstituenten anwendet, entwickeln wir eine Verallgemeinerung, die die strukturellen Eigenschaften des Modells beibehält, aber die syntaktische Information mit Merkmale ergänzt, die aus automatischem Clustering gewonnenen wurden. Dies ermöglicht den Einsatz dieser Methode auch für Sprachen, für die die nicht die erforderlichen linguistische Hilfsmittel vorhanden sind. Ein weiteres Ergebnis dieser Arbeit ist die Open-Source maschinelle Übersetzung Toolkit Jane, die für die wissenschaftliche Gemeinschaft zur freien Verfügung gestellt worden ist, kostenlos für nicht-kommerzielle Zwecke. Die in dieser Arbeit beschrieben Methoden sind alle in diesem Toolkit umgesetzt, was eine weitere Verbreitung und Reproduzierbarkeit der Ergebnisse ermöglicht. Einige praktische Aspekte der Umsetzung werden auch in dieser Arbeit behandelt. In dem zweiten Teil dieser Arbeit, betrachten wir die Bewertung der Ausgabe der maschinellen Übersetzung, wobei der Schwerpunkt auf drei konkreten Themen dieses breiten Gebietes gesetzt wird. Zunächst schlagen wir ein neues Verfahren für die Durchführung der menschlichen Evaluierung vor, die auf paarweisen Vergleiche basiert. Das Ziel ist eine Beschleunigung des zeitaufwändigen Prozesses der Bewertung maschineller Übersetzungen durch menschliche Experten. Zweitens entwickeln wir ein System für die Klassifizierung von Fehlern in maschinell generierten Übersetzungen, die die Erkennung von bestimmten Mängeln eines Übersetzungssystems ermöglicht und damit eine gezielte Ausrichtung weiterer Forschungsarbeiten ermöglicht. Abschließend beschreiben wir die mangelnde Korrelation zwischen der Alignmentfehlerrate (alignment error rate) und der Qualität der Übersetzung. Damit geben wir eine Motivation für eine bessere Kontrolle der Ergebnisse von Alignment-Methoden in der Literatur. Im letzten Teil der Arbeit analysieren wir die Möglichkeit, ein maschinelles Übersetzungssystem auf Buchstabenebene zu konstruieren, anstatt auf Wortebene. Zwar ist ein solches Übersetzungssystem hauptsächlich von akademischem Interesse, aber ein solcher Ansatz kann auch in anderen Bereiche wie z.B. maschineller Transliteration oder Aussprachegenerierung angewendet werden.

In this thesis we investigate the hierarchical phrase-based approach to machine translation, with special attention to the search problem. This approach is nowadays one of the most widely applied for statistical machine translation, and thus a detailed study helps in advancing the state-of-the-art in the field. Two are the most widely used algorithms for translating using the hierarchical phrase-based approach: cube pruning and cube growing. For each of this algorithms we study their behaviour in terms of translation quality and computational requirements (speed and memory usage), and propose novel extensions which improve the computational costs of the generation process. These extensions enable us to apply the hierarchical approach to wider domains and allow the use of larger sets of parallel corpora, which in turn improve translation quality. Furthermore, we design extensions of the hierarchical model that include linguistically motivated information into the translation process, comparing them with other approaches proposed by other research groups. By inspecting the behaviour of one of these methods, which includes additional information in the form of syntactic constituents, we propose a generalization that retains the structural properties of the model, but substitutes the syntactic information by information derived from automatic clustering techniques. This allows the use of this method for a broader spectrum of languages, where the necessary linguistic tools for the original method may not be available. An additional result of this thesis is the open source machine translation toolkit Jane, which was made available to the scientific community, free of charge for non-commercial purposes. The methods described in this thesis are all implemented in the toolkit, which provides a wider dissemination of the results, as well as allowing better replicability. Some practical implementation aspects are also discussed in this thesis. In the second part of the thesis, we turn our attention to the evaluation of machine translation output, focusing on three concrete subtopics of this broad area. First, we propose a novel method for performing human evaluation based on binary comparisons, which aims at speeding up the time-consuming process of evaluating machine translation output by human judges. Second, we present a framework for the classification of errors in machine-generated translations, which allows to detect the main problems of a translation system and focus research efforts. Lastly, we give evidence about the lack of correlation between the alignment error rate measure and the final translation quality, thus motivating a better inspection of the improvements of alignment methods in the literature. Finally, we analyze the possibility of constructing a machine translation system that operates on the level of letters instead of words. While such a translation system is mainly of academic interest, such an approach can be applied in fields like machine transliteration of grapheme-to-phoneme conversion.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-125900
Datensatz-ID: 64613

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2013-01-28, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)