Statistical computer-assisted translation

Khadivi, Shahram; Ney, Hermann

doi:urn:nbn:de:hbz:82-opus-24780

Statistical computer-assisted translation = Statistische Computerunterstützte Übersetzung

Khadivi, Shahram (Author)

2008

Verantwortlichkeitsangabevorgelegt von Shahram Khadivi

ImpressumAachen : Publikationsserver der RWTH Aachen University 2008

UmfangVI, 124 S. : graph. Darst.

Aachen, Techn. Hochsch., Diss., 2008

Zusammenfassung in engl. und dt. Sprache

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2008-07-10

Online
URN: urn:nbn:de:hbz:82-opus-24780
URL: https://publications.rwth-aachen.de/record/50205/files/Khadivi_Shahram.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
Automatische Spracherkennung (Genormte SW) ; Automatische Übersetzung (Genormte SW) ; Computerunterstützte Übersetzung (Genormte SW) ; Informatik (frei) ; Speech recognition (frei) ; Statistical machine translation (frei) ; Computer-assisted translation (frei) ; corpus compilation (frei) ; sentence alignment (frei) ; corpus filtering (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
In den vergangenen Jahren konnte die maschinelle Übersetzung mit statistischen Methoden (engl. Statistical Machine Translation, MT) signifikante Verbesserungen erzielen, jedoch ist auch die beste maschinelle Übersetzung einem menschlichen Übersetzer noch deutlich unterlegen. Dennoch kann ein MT-System die Produktivität einer menschlichen Arbeitskraft steigern. Üblicherweise bearbeiten menschliche Übersetzer die MT-Systemausgabe zur Fehlerkorrektur, oder sie bearbeiten den Quelltext, um das Vokabular einzuschränken. Eine Möglichkeit, die Produktivität des gesamten Übersetzungsprozesses (MT und menschliche Arbeit) zu erhöhen, ist, die menschlichen Korrekturarbeiten in den Übersetzungsprozess mit einzubeziehen. So wandelt sich das MT-Modell zu rechnerunterstützter Übersetzung (engl. Computer-Assisted Translation, CAT). Beginnt der menschliche Übersetzer mit der Eingabe seiner Übersetzung eines gegebenen Quelltextes, so wird von einem solchen CAT-System beim Tippen jedes Buchstabens eine interaktive Vervollständigung der Übersetzung angeboten. Der Übersetzer kann dann die Eingabe fortsetzen oder die Vervollständigung insgesamt oder teilweise übernehmen. Dazu verwenden wir ein vollwertiges, phrasenbasiertes Übersetzungssystem als Teil eines gesamten CAT-Systems. Wichtig für ein solches System ist eine schnelle Reaktionszeit des MT-Systems, die durch eine effiziente Darstellung des Suchraums mit Wortgraphen gewährleistet wird. Die Experimente werden auf einer kleinen und einer großen Standardaufgabe durchgeführt. Ausgebildete Übersetzer können schneller diktieren als eine Übersetzung manuell einzugeben, deswegen ist die Einbindung gesprochener Sprache eine oft gewünschte Eigenschaft eines CAT-Systems. Zwei Informationsquellen sind dabei verfügbar, um die Spracheingabe zu erkennen: die gesprochene Sprache der Zielsprache und der gegebene Text in der Ausgangssprache. Die gesprochene Sprache, die in der Zielsprache vorliegt, wurde von menschlichen Übersetzern aus dem Text der Ausgangssprache produziert. Dabei ist die Suche die wesentliche Herausforderung bei der Einbindung der automatischen Spracherkennung (engl. Automatic Speech Recognition, ASR) und der MT-Modelle in ein CAT-System. Da die Suche sowohl in MT als auch in ASR bereits sehr komplex ist, wird die vollständige, einfache Suche zur Kombination der MT- und ASR-Modelle die Komplexität beträchtlich erhöhen. Zusätzlich wird diese Suche nochmals komplexer, weil weder ein spezifisches Modell noch angemessene Trainingsdaten existieren. In dieser Arbeit untersuchen wir deshalb verschiedene Methoden, um ASR- und MT-Modelle zu integrieren. Wir stellen verschiedene Verfahren vor, die auf der N-Bestenliste und Rescoringstrategien für Wortgraphen basieren. Wir betrachten hier sowohl die Integration von einzelwort-basierter MT und phrasenbasierter MT mit ASR-Modellen, wobei die Experimente auf einer großen Standardaufgabe, den Aufzeichnungen der Plenarsitzungen des europäischen Parlaments, durchgeführt werden. Ein CAT-System kann auch mit einem speicherbasierten Modul ausgestattet sein, das nicht automatisch übersetzt, sondern die Übersetzungen aus einer großen Datenbank von gleichen oder ähnlichen Sätzen und Phrasen ausliest. Eine solche Datenbank, auch bilingualer Korpus genannt, ist auch beim Training eines MT-Systems erforderlich, deswegen bedeutet eine größere Datenbank auch bessere und akuratere Übersetzungen. In dieser Arbeit werden außerdem noch zwei effizientere Methoden zur Erstellung bilingualer Korpora mit abgeglichenen Satzpaaren aus Internetseiten untersucht. Die erste Methode ist eine typische Erweiterung der existierenden Verfahren bei der Angleichung von Satzpaaren für parallele Texte. Dabei werden wir zeigen, wie satzlängenbasierte Modelle, Wort-zu-Wort-Übersetzungsmodelle, verwandte Wörter, zweisprachige Lexika und andere Eigenschaften effizient angewendet werden können. In der zweiten Methode schlagen wir ein neues Verfahren für die Angleichung von Sätzen basierend auf der Überprüfung bipartiter Graphen vor. Wir zeigen, dass dieser neue Algorithmus konkurrenzfähige Ergebnisse vergleichbar mit anderen Methoden für parallele Korpora vorweisen kann. Zugleich ist er sehr nützlich bei der Bearbeitung verschiedener Satzreihenfolgen in einem Quelltext und einem entsprechenden Übersetzungstext. Des Weiteren wird ein effizientes Verfahren vorgestellt, um falsche Satzpaare in den bilingualen Korpora zu erkennen und herauszufiltern.

In recent years, significant improvements have been achieved in statistical machine translation (MT), but still even the best machine translation technology is far from replacing or even competing with human translators. However, an MT system helps to increase the productivity of human translators. Usually, human translators edit the MT system output to correct the errors, or they may edit the source text to limit vocabulary. A way of increasing the productivity of the whole translation process (MT plus human work) is to incorporate the human correction activities in the translation process, thereby shifting the MT paradigm to that of computer-assisted translation (CAT). In a CAT system, the human translator begins to type the translation of a given source text; by typing each character the MT system interactively offers and enhances the completion of the translation. Human translator may continue typing or accept the whole completion or part of it. Here, we will use a fully fledged translation system, phrase-based MT, to develop computer-assisted translation systems. An important factor in a CAT system is the response time of the MT system. We will describe an efficient search space representation using word hypotheses graphs, so as to guarantee a fast response time. The experiments will be done on a small and a large standard task. Skilled human translators are faster in dictating than typing the translations, therefore a desired feature of a CAT system is the integration of human speech into the CAT system. In a CAT system with integrated speech, two sources of information are available to recognize the speech input: the target language speech and the given source language text. The target language speech is a human-produced translation of the source language text. The main challenge in the integration of the automatic speech recognition (ASR) and the MT models in a CAT system, is the search. The search in the MT and in the ASR systems are already very complex, therefore a full single search to combine the ASR and the MT models will considerably increase the complexity. In addition, a full single search becomes more complex since there is not any specific model nor any appropriate training data. In this work, we study different methods to integrate the ASR and the MT models. We propose several new integration methods based on N-best list and word graph rescoring strategies. We study the integration of both single-word based MT and phrase-based MT with ASR models. The experiments are performed on a standard large task, namely the European parliament plenary sessions. A CAT system might be equipped with a memory-based module that does not actually translate, but find the translation from a large database of exact or similar matches from sentences or phrases that are already known. Such a database, known as bilingual corpora are also essential in training the statistical machine translation models. Therefore, having a larger database means a more accurate and faster translation system. In this thesis, we will also investigate the efficient ways to compile bilingual sentence-aligned corpora from the Internet. We propose two new methods for sentence alignment. The first one is a typical extension of the existing methods in the field of sentence alignment for parallel texts. We will show how we can employ sentence-length based models, word-to-word translation models, cognates, bilingual lexica, and any other features in an efficient way. In the second method, we propose a new method for aligning sentences based on bipartite graph matching. We show that this new algorithm has a competitive performance with other methods for parallel corpora, and at the same time it is very useful in handling different order of sentences in a source text and its corresponding translation text. Further, we propose an efficient way to recognize and filter out wrong sentence pairs from the bilingual corpora.

Fulltext:
PDF