Multifunktionale und multilinguale Unit-Selection-Sprachsynthese

Breuer, Stefan

Volltext

Dokument öffnen (9.1MB)

Autor

Breuer, Stefan

Art der Hochschulschrift

Dissertation

Prüfungsdatum

09.05.2008

Datum der Veröffentlichung

28.01.2009

Erstgutachter

Hess, Wolfgang

Zweitgutachter

Möbius, Bernd

Beteiligte Institutionen

Rheinische Friedrich-Wilhelms-Universität Bonn

Metadaten

Zur Langanzeige

Zitierbare Links

Handle: https://hdl.handle.net/20.500.11811/3964
URN: https://nbn-resolving.org/urn:nbn:de:hbz:5-16507

Inhalt

Im der vorliegenden Dissertation wird eine Systematik zum Aufbau von Systemen für mehrsprachige Sprachsynthese in heterogenen Anwendungsszenarien entwickelt und deren Implementierung im Bonn Open Synthesis System (BOSS) beschrieben. Ein weiterer Schwerpunkt der Arbeit widmet sich der Definition neuer Sprachbausteine, sogenannter Phoxsy-Einheiten, für das derzeit vorherrschende Paradigma der Unit-Selection-Sprachsynthese, das auch der BOSS-Software zugrundeliegt.
Zu Beginn der Dissertation werden zunächst die Grundlagen und die Historie des Einheitenauswahlverfahrens in der Sprachsynthese erläutert und der Entwicklungsstand von BOSS zu Beginn der Arbeit dargestellt (Kapitel 2 und 3). Dabei werden die gängigsten Verfahren und wichtigsten Entwicklungen seit den späten Achtzigerjahren erläutert und deren Gemeinsamkeiten mit BOSS sowie die Unterschiede zu der im Bonner System verwendeten mehrstufigen Unit Selection beschrieben.
Der folgende Teil, Kapitel 4, beinhaltet die Entwicklung der Phoxsy-Sprachbausteine. Dabei handelt es sich um Multiphone, die aus der Zusammenfassung schwer segmentierbarer Lautfolgen bestehen, wie sie beispielsweise Approximant-Vokal-Sequenzen darstellen. Weitere Einheitendefintionen sollen dem für die Unit Selection besonders schwierigen Problem der vollständigen und unvollständigen Elision von Segmenten Abhilfe schaffen. Es wird in diesem Zusammenhang für eine konsequente implizite Modellierung der Segmentfolge gegenüber einer fehlerbehafteten Prädiktion plädiert, die auch dem grundsätzlichen Wirkungsprinzip der Unit Selection besser gerecht würde. Die vorgestellten Einheiten leisten dahingehend einen Beitrag.
In Kapitel 5 wird die im Rahmen der Promotion durchgeführte Weiterentwicklung des BOSS-Systems beschrieben. Zu den Neuerungen gehört ein Konzept, das die Konfigurierbarkeit bestehender Synthesemodule ermöglicht und damit den Grundstein für flexible multilinguale und multifunktionale Anwendbarkeit des Systems legt. Dies wird ergänzt durch eine Modularisierung der Synthesekomponenten, die die im ursprünglichen BOSS-System im Ansatz angelegten Konzepte fortführt und die hier durch theoretische Überlegungen zum generellen Aufbau multilingualer und multifunktionaler Systeme systematisiert und in konkrete Empfehlungen für den Aufbau von BOSS-Synthesemodulen umgesetzt wird. Prosodische Erweiterungen des Systems, sowie ein Klassifizierungssystem zur phonetischen Beschreibung von Multiphonkontexten, das die Verwendung der in Kapitel 4 eingeführten Phoxsy-Bausteine in BOSS ermöglicht, sind weitere Schwerpunkte des Kapitels.
Im letzten Teil der Dissertation wird der Aufbau eines auf BOSS basierenden Sprachsynthesesystems für die Ansage von Adressen und Telefonnummern in einem Auskunftsszenario beschrieben (Kapitel 6). Dabei wird auf die Besonderheiten des zu diesem Zweck aufgenommenen Sprachkorpus und die Methodik zur Abdeckung der angestrebten Eigennamen-Domäne eingegangen. Statistiken demonstrieren, dass bereits mit der Aufnahme relativ weniger Telefonbuch-Einträge eine hohe Abdeckung erreicht werden kann. Weiterhin werden die aufgestellten Konventionen zur Transkription und Aussprache von Eigennamen und die Werkzeuge zur Erstellung des Aussprachelexikons vorgestellt. Im weiteren Verlauf werden die Änderungen am Laufzeitsystem betrachtet, insbesondere die Algorithmen zur Textnormalisierung von Telefonbucheinträgen und die verwendeten Verfahren zur automatischen Transkription von Namen, die nicht im Lexikon enthalten sind. Sowohl für die Performanz des Transkriptionsmoduls als auch die Verständlichkeit des finalen Gesamtsystems werden die Ergebnisse der Evaluation vorgestellt.

Multi-Functional and Multi-Lingual Unit Selection Speech Synthesis - Design Principles for System Architecture and Speech Units
In the present thesis, systematics for the structure of multi-lingual speech synthesis systems in heterogeneous application scenarios are developed and the implementation of such a structure in the Bonn Open Synthesis System (BOSS) is described. A further focus of this work is on the definition of new multi-phone speech units - called phoxsy - for the prevailing paradigm of unit selection speech synthesis which also forms the basis of BOSS.
The thesis starts with a summary of the foundations and the history of unit selection algorithms for speech synthesis, listing the most important methods and developments from the late eighties on (chapter 2). Subsequently, the state of the BOSS system before this work was conducted is described and the differences between the depicted methods and the multi-level unit selection employed in BOSS are highlighted.
The following part, chapter 4, describes the development of the phoxsy multi-phone units which are composed of sequences of hard-to-segment speech sounds, e.g. glide-vowel sequences. Further units are developed to accomodate the difficulty of unit selection synthesisers to deal with the elision of segments. It is argued that implicit modelling of sound sequences as it is provided by phonetically abstract multi-phone units is more reliable than an explicit prediction of the sound structure of an utterance and also more in line with the general workings of the unit selection method.
Chapter 5 gives a detailed description of the measures that were taken to develop BOSS into a configurable, multi-lingual and multi-functional text-to-speech system. The modularity that was at the basis of the original BOSS is extended and theoretical foundations for the general structure of flexible speech synthesis systems are laid out and formulated into recommendations for the structure of BOSS modules. Further changes described in this chapter include prosodic extensions to the architecture as well as a system for the phonetic classification of context multi-phones to enable the use of phoxsy units in BOSS.
The last part of the thesis deals with the construction of a BOSS-based address and telephone number synthesiser for an automatic directory enquiries application (chapter 6). The structure required for a speech corpus in the proper name domain and the methods for building a corpus to cover this domain are explained and it is shown that such a corpus can reach a large coverage with a relatively small number of recorded directory entries. In the course of the chapter, the conventions established for the transcription and pronunciation of proper names and the tools for constructing a pronunciation lexicon of such names are described. The changes in the runtime synthesis system are a further topic of this chapter, with a focus on the methods employed for text preprocessing of directory entries and the automatic transcription of out-of-vocabulary words. Both the performance of the transcription method and the intelligibility of the resulting synthesiser are illustrated by evaluation results.

Schlagwörter

Unit Selection, Sprachsynthese, Phonetik, Sprachtechnologie, Bonn Open Synthesis System, BOSS, speech synthesis, phonetics, speech technology

Klassifikation (DDC)

004 Informatik

400 Sprache, Linguistik

Zitiervorschlag
BibTeX

Breuer, Stefan: Multifunktionale und multilinguale Unit-Selection-Sprachsynthese : Designprinzipien für Architektur und Sprachbausteine. - Bonn, 2009. - Dissertation, Rheinische Friedrich-Wilhelms-Universität Bonn.
Online-Ausgabe in bonndoc: https://nbn-resolving.org/urn:nbn:de:hbz:5-16507

@phdthesis{handle:20.500.11811/3964,
urn: https://nbn-resolving.org/urn:nbn:de:hbz:5-16507,
author = {{Stefan Breuer}},
title = {Multifunktionale und multilinguale Unit-Selection-Sprachsynthese : Designprinzipien für Architektur und Sprachbausteine},
school = {Rheinische Friedrich-Wilhelms-Universität Bonn},
year = 2009,
month = jan,
note = {Im der vorliegenden Dissertation wird eine Systematik zum Aufbau von Systemen für mehrsprachige Sprachsynthese in heterogenen Anwendungsszenarien entwickelt und deren Implementierung im Bonn Open Synthesis System (BOSS) beschrieben. Ein weiterer Schwerpunkt der Arbeit widmet sich der Definition neuer Sprachbausteine, sogenannter Phoxsy-Einheiten, für das derzeit vorherrschende Paradigma der Unit-Selection-Sprachsynthese, das auch der BOSS-Software zugrundeliegt.
Zu Beginn der Dissertation werden zunächst die Grundlagen und die Historie des Einheitenauswahlverfahrens in der Sprachsynthese erläutert und der Entwicklungsstand von BOSS zu Beginn der Arbeit dargestellt (Kapitel 2 und 3). Dabei werden die gängigsten Verfahren und wichtigsten Entwicklungen seit den späten Achtzigerjahren erläutert und deren Gemeinsamkeiten mit BOSS sowie die Unterschiede zu der im Bonner System verwendeten mehrstufigen Unit Selection beschrieben.
Der folgende Teil, Kapitel 4, beinhaltet die Entwicklung der Phoxsy-Sprachbausteine. Dabei handelt es sich um Multiphone, die aus der Zusammenfassung schwer segmentierbarer Lautfolgen bestehen, wie sie beispielsweise Approximant-Vokal-Sequenzen darstellen. Weitere Einheitendefintionen sollen dem für die Unit Selection besonders schwierigen Problem der vollständigen und unvollständigen Elision von Segmenten Abhilfe schaffen. Es wird in diesem Zusammenhang für eine konsequente implizite Modellierung der Segmentfolge gegenüber einer fehlerbehafteten Prädiktion plädiert, die auch dem grundsätzlichen Wirkungsprinzip der Unit Selection besser gerecht würde. Die vorgestellten Einheiten leisten dahingehend einen Beitrag.
In Kapitel 5 wird die im Rahmen der Promotion durchgeführte Weiterentwicklung des BOSS-Systems beschrieben. Zu den Neuerungen gehört ein Konzept, das die Konfigurierbarkeit bestehender Synthesemodule ermöglicht und damit den Grundstein für flexible multilinguale und multifunktionale Anwendbarkeit des Systems legt. Dies wird ergänzt durch eine Modularisierung der Synthesekomponenten, die die im ursprünglichen BOSS-System im Ansatz angelegten Konzepte fortführt und die hier durch theoretische Überlegungen zum generellen Aufbau multilingualer und multifunktionaler Systeme systematisiert und in konkrete Empfehlungen für den Aufbau von BOSS-Synthesemodulen umgesetzt wird. Prosodische Erweiterungen des Systems, sowie ein Klassifizierungssystem zur phonetischen Beschreibung von Multiphonkontexten, das die Verwendung der in Kapitel 4 eingeführten Phoxsy-Bausteine in BOSS ermöglicht, sind weitere Schwerpunkte des Kapitels.
Im letzten Teil der Dissertation wird der Aufbau eines auf BOSS basierenden Sprachsynthesesystems für die Ansage von Adressen und Telefonnummern in einem Auskunftsszenario beschrieben (Kapitel 6). Dabei wird auf die Besonderheiten des zu diesem Zweck aufgenommenen Sprachkorpus und die Methodik zur Abdeckung der angestrebten Eigennamen-Domäne eingegangen. Statistiken demonstrieren, dass bereits mit der Aufnahme relativ weniger Telefonbuch-Einträge eine hohe Abdeckung erreicht werden kann. Weiterhin werden die aufgestellten Konventionen zur Transkription und Aussprache von Eigennamen und die Werkzeuge zur Erstellung des Aussprachelexikons vorgestellt. Im weiteren Verlauf werden die Änderungen am Laufzeitsystem betrachtet, insbesondere die Algorithmen zur Textnormalisierung von Telefonbucheinträgen und die verwendeten Verfahren zur automatischen Transkription von Namen, die nicht im Lexikon enthalten sind. Sowohl für die Performanz des Transkriptionsmoduls als auch die Verständlichkeit des finalen Gesamtsystems werden die Ergebnisse der Evaluation vorgestellt.},
url = {https://hdl.handle.net/20.500.11811/3964}
}

Die folgenden Nutzungsbestimmungen sind mit dieser Ressource verbunden: