Sub-word based language modeling of morphologically rich languages for LVCSR

El-Desoky Mousa, Amr; Ney, Hermann

doi:33623

Sub-word based language modeling of morphologically rich languages for LVCSR = Teilwort-basierte Sprachmodellierung morphologisch reicher Sprachen für kontinuierliche Spracherkennung bei großem Vokabular

El-Desoky Mousa, Amr (Author)

2014

Verantwortlichkeitsangabevorgelegt von Amr Ibrahim El-Desoky Mousa

ImpressumAachen : Publikationsserver der RWTH Aachen University 2014

UmfangXI, 132 S. : graph. Darst.

Aachen, Techn. Hochsch., Diss., 2014

Zsfassung in dt. und engl. Sprache

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2014-06-18

Online
URN: urn:nbn:de:hbz:82-opus-50850
URL: https://publications.rwth-aachen.de/record/444658/files/5085.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
Spracherkennung (Genormte SW) ; Informatik (frei) ; Sprachmodellierung (frei) ; morphologisch reiche Sprachen (frei) ; kontinuierliche Spracherkennung (frei) ; großes Vokabular (frei) ; sub-word (frei) ; language modeling (frei) ; morphologically rich languages (frei) ; large vocabulary (frei) ; speech recognition (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Spracherkennung bezieht sich auf die Umwandlung eines akustischen Sprachsignals in einen geschriebenen Text. Spracherkennungssysteme sind heute in der Lage, kontinuierliche Sprache mit einem großen Wortschatz von in der Regel mehr als 100k Wörtern zu erkennen. Obwohl die meisten der in der Spracherkennung verwendeten Techniken unabhängig von der Sprache sind, stellen verschiedene Sprachen in der Regel dennoch weitere Herausforderungen. Insbesondere morphologisch reiche Sprachen stellen harte Herausforderungen an eine effektive Sprachmodellierung. Eine komplexe Morphologie führt in der Regel zu sehr großen Vokabularien bzw. zu einem erhöhten Maß nur selten oder gar nicht gesehener Wörter, sog. out-of-vocabulary (OOV) Wörter und damit zu nicht robust schätzbaren Sprachmodellwahrscheinlichkeiten. Die traditionellen m-gram Sprachmodelle über einem festgelegten Vokabular ganzer Wörter sind in der Regel durch hohe Perplexitäten gekennzeichnet, und sind nicht in der Lage, ungesehene Wörter vorherzusagen, wie es viele Spracherkennungsanwendungen, wie Diktiersysteme oder Transkription von Nachrichtensendungen erfordern. Diese Arbeit behandelt das Problem des Aufbaus effizienter Sprachmodelle für morphologisch reiche Sprachen. Alternative Konzepte zur Sprachmodellierung werden entwickelt, um die Sprachen mit komplexer Morphologie behandeln zu können. Diese Arbeit beinhaltet eine umfassende Untersuchung zur Sprachmodellierung auf Basis von Teilwörtern, wie Morphemen oder Silben, und zeigt auf, wie mit Hilfe dieser Ansätze die Fehlerraten bestehender Systeme verbessert werden können. Auch das Aussprachmodell wird hier mitberücksichtigt, indem die Aussprachen von Teilwörtern kontextabhängig modelliert werden. Der hybride Ansatz zur Sprachmodellierung wird zudem durch die Kombination unterschiedlicher Teilworttypen erweitert. Obwohl Teilwort-basierte Sprachmodelle nicht explizit im Vokabular enthaltene (OOV) Wörter erfolgreich behandeln, besteht immer noch ein Problem in Bezug auf Ihre Generalisierung auf im Training nicht gesehene Wortfolgen. Zur Behandlung dieses Problems werden morphologisch motivierte Klassen für die Sprachmodellierung herangezogen, um die Schätzung selten gesehener m-gramme zu verbessern. Beispiele solcher Modelle sind Klassen- und Stream-Sprachmodelle, sowie faktorisierte Sprachmodelle. Ein neuer Ansatz zur Verwendung morphologisch orientierter Klassen zur Modellierung auf Morphem-Basis, anstatt auf Wortbasis wird vorgestellt. Dies erlaubt, die Vorteile von Teilwort-basierten Sprachmodellen und morphologisch orientierten Klassen auszunutzen. Die genannten Anstze werden zusätzlich mit aktuellen Ansätzen zur Sprachmodellierung kombiniert. Dies beinhaltet hierarchische Pitman-Yor Sprachmodelle, einen Typus Bayes'scher Sprachmodelle auf Basis des Pitman-Yor Prozesses, für die Verbesserungen in Perplexität und Wortfehlerrate im Vergleich zum konventionellen modifizierten Kneser-Ney Modell berichtet werden. In dieser Arbeit werden Pitman-Yor Modelle zur Schätzung von Teilwortsprachmodellen herangezogen. Seit einiger Zeit zeigen sog. continuous space Sprachmodelle signifikante Verbesserungen in der kontinuierlichen Spracherkennung bei großem Vokabular. Die kontinuierliche Natur dieser Sprachmodelle lässt eine bessere Generalisierung aufgrund des kontinuierlichen Räumen eigenen Glättungsverhaltens erwarten. Einen erfolgreichen Ansatz stellen hier die aufgeschaltete tiefe neuronale Mehrschichtennetze mit mehreren verborgenen Schichten dar. Dieses Modell erlaubt die Erfassung von übergeordeter Informationen bzw. eine Abstraktion von den Eingabemerkmalen. Tiefe Netzwerke zeigen dabei seit kurzem in vielen Mustererkennungsansätzen deutliche Verbesserungen gegenüber flacheren Netzwerken. In dieser Arbeit werden aufgeschaltete tiefe neuronale Netze zur Sprachmodellierung auf Teilwortebene untersucht. Dies beinhaltet ebenfalls die Verwendung von Wort- und Teilwortklassen als Eingabemerkmale dieser neuronalen Netze, um eine verbesserte Wahrscheinlichkeitsschätzung für morphologisch reiche Sprachen zu erreichen. Die in dieser Arbeit verwendeten Methoden wurden für Spracherkennungsaufgaben in arabischer, deutscher und polnischer Sprache, als gute Beispiele morphologisch reicher Sprachen, getestet. Die Experimente wurden mit Spracherkennungssystemen der RWTH Aachen durchgeführt, die dem aktuellen Stand der Technik entsprechen, und in Forschungsprojekten wie GALE, Quaero oder BOLT verwendet wurden. Die in dieser Arbeit entwickelten Methoden reduzieren die Wortfehlerrate um bis zu 7% relativ im Vergleich zu stark optimierten traditionellen Ansätzen bei sehr großem Wortschatz, d.h. in der Regel einem Vokabular von bis zu einer Million Wörter.

Speech recognition is the task of decoding an acoustic speech signal into a written text. Large vocabulary continuous speech recognition (LVCSR) systems are able to deal with a large vocabulary of words, typically more than 100k words, pronounced continuously in a fluent manner. Although most of the techniques used in speech recognition are language independent, still different languages are posing different types of challenges. Efficient language modeling is considered one of the hard challenges facing LVCSR of morphologically rich languages. The complex morphology of such languages causes data sparsity and high out-of-vocabulary rates leading to poor language model probability estimates. The traditional m-gram language models estimated over the normal full-words are usually characterized by high perplexities and suffer from the inability to model unseen words that are more likely to occur in open vocabulary speech recognition tasks, like open domain dictation and broadcast news transcription. This thesis addresses the problem of building efficient language models for morphologically rich languages. Alternative language modeling approaches are developed to handle the complex morphology of such languages. This work extensively investigates the use of sub-word based language models using different types of sub-words, like morphemes and syllables, and shows how to carefully optimize their performance to minimize word error rate. In addition, the pronunciation model is combined with the language model through the use of sub-words combined with their context dependent pronunciations forming a set of joint units called graphones. Moreover, a novel approach is examined using extended hybrid language models comprising multiple types of units in one flat model. Although the sub-word based language models are successful in handling unseen words, still they suffer from the lack of generalization with regard to unseen word sequences. To overcome this problem, morphology-based classes are incorporated into the modeling process to support the probability estimation for sparse m-grams. Examples of such models are the stream-based and class-based language models, as well as the factored language models. A novel methodology is proposed, which uses morphology-based classes derived on the level of morphemes rather than the level of full-words to build the language model. Thereby, the benefits of both sub-word based language models and morphology-based classes are retained. Moreover, the aforementioned approaches are combined with the efficient state-of-the-art language modeling techniques, like the hierarchical Pitman-Yor language model which is a type of Bayesian language model based on the Pitman-Yor process that has been shown to improve both perplexity and word error rate over the conventional modified Kneser-Ney smoothed m-gram models. In this thesis, hierarchical Pitman-Yor models are used to estimate class-based language models with sub-word level classes. Recently, continuous space language models have shown significant performance improvements in LVCSR tasks. The continuous nature of such models allows for better levels of generalization due to the inherent smoothing capabilities in continuous space. One of the successful continuous models used in pattern recognition tasks is the feed-forward deep neural network with multiple hidden layers. This model can capture higher-level and abstract information about the input features. Recently, feed-forward deep neural networks have shown improved performance compared to shallow neural networks in many pattern recognition tasks. In this work, the use of feed-forward deep neural networks is explored to estimate sub-word based language models. In addition, word and sub-word level classes are used as inputs to the neural networks in order to improve probability estimation in cases of morphological richness. The methods applied in this work are tested on Arabic, German and Polish as good examples of languages having rich morphology. Experiments are conducted using the state-of-the-art LVCSR systems used by RWTH Aachen in GALE, Quaero, and BOLT research projects. The methods developed in this thesis reduce the word error rate by up to 7% relative compared to heavily optimized traditional approaches applied on very large vocabulary sizes, typically up to one million words.

Fulltext:
PDF