Breuer, Stefan: Multifunktionale und multilinguale Unit-Selection-Sprachsynthese : Designprinzipien für Architektur und Sprachbausteine. - Bonn, 2009. - Dissertation, Rheinische Friedrich-Wilhelms-Universität Bonn.
Online-Ausgabe in bonndoc: https://nbn-resolving.org/urn:nbn:de:hbz:5-16507
@phdthesis{handle:20.500.11811/3964,
urn: https://nbn-resolving.org/urn:nbn:de:hbz:5-16507,
author = {{Stefan Breuer}},
title = {Multifunktionale und multilinguale Unit-Selection-Sprachsynthese : Designprinzipien für Architektur und Sprachbausteine},
school = {Rheinische Friedrich-Wilhelms-Universität Bonn},
year = 2009,
month = jan,

note = {Im der vorliegenden Dissertation wird eine Systematik zum Aufbau von Systemen für mehrsprachige Sprachsynthese in heterogenen Anwendungsszenarien entwickelt und deren Implementierung im Bonn Open Synthesis System (BOSS) beschrieben. Ein weiterer Schwerpunkt der Arbeit widmet sich der Definition neuer Sprachbausteine, sogenannter Phoxsy-Einheiten, für das derzeit vorherrschende Paradigma der Unit-Selection-Sprachsynthese, das auch der BOSS-Software zugrundeliegt.
Zu Beginn der Dissertation werden zunächst die Grundlagen und die Historie des Einheitenauswahlverfahrens in der Sprachsynthese erläutert und der Entwicklungsstand von BOSS zu Beginn der Arbeit dargestellt (Kapitel 2 und 3). Dabei werden die gängigsten Verfahren und wichtigsten Entwicklungen seit den späten Achtzigerjahren erläutert und deren Gemeinsamkeiten mit BOSS sowie die Unterschiede zu der im Bonner System verwendeten mehrstufigen Unit Selection beschrieben.
Der folgende Teil, Kapitel 4, beinhaltet die Entwicklung der Phoxsy-Sprachbausteine. Dabei handelt es sich um Multiphone, die aus der Zusammenfassung schwer segmentierbarer Lautfolgen bestehen, wie sie beispielsweise Approximant-Vokal-Sequenzen darstellen. Weitere Einheitendefintionen sollen dem für die Unit Selection besonders schwierigen Problem der vollständigen und unvollständigen Elision von Segmenten Abhilfe schaffen. Es wird in diesem Zusammenhang für eine konsequente implizite Modellierung der Segmentfolge gegenüber einer fehlerbehafteten Prädiktion plädiert, die auch dem grundsätzlichen Wirkungsprinzip der Unit Selection besser gerecht würde. Die vorgestellten Einheiten leisten dahingehend einen Beitrag.
In Kapitel 5 wird die im Rahmen der Promotion durchgeführte Weiterentwicklung des BOSS-Systems beschrieben. Zu den Neuerungen gehört ein Konzept, das die Konfigurierbarkeit bestehender Synthesemodule ermöglicht und damit den Grundstein für flexible multilinguale und multifunktionale Anwendbarkeit des Systems legt. Dies wird ergänzt durch eine Modularisierung der Synthesekomponenten, die die im ursprünglichen BOSS-System im Ansatz angelegten Konzepte fortführt und die hier durch theoretische Überlegungen zum generellen Aufbau multilingualer und multifunktionaler Systeme systematisiert und in konkrete Empfehlungen für den Aufbau von BOSS-Synthesemodulen umgesetzt wird. Prosodische Erweiterungen des Systems, sowie ein Klassifizierungssystem zur phonetischen Beschreibung von Multiphonkontexten, das die Verwendung der in Kapitel 4 eingeführten Phoxsy-Bausteine in BOSS ermöglicht, sind weitere Schwerpunkte des Kapitels.
Im letzten Teil der Dissertation wird der Aufbau eines auf BOSS basierenden Sprachsynthesesystems für die Ansage von Adressen und Telefonnummern in einem Auskunftsszenario beschrieben (Kapitel 6). Dabei wird auf die Besonderheiten des zu diesem Zweck aufgenommenen Sprachkorpus und die Methodik zur Abdeckung der angestrebten Eigennamen-Domäne eingegangen. Statistiken demonstrieren, dass bereits mit der Aufnahme relativ weniger Telefonbuch-Einträge eine hohe Abdeckung erreicht werden kann. Weiterhin werden die aufgestellten Konventionen zur Transkription und Aussprache von Eigennamen und die Werkzeuge zur Erstellung des Aussprachelexikons vorgestellt. Im weiteren Verlauf werden die Änderungen am Laufzeitsystem betrachtet, insbesondere die Algorithmen zur Textnormalisierung von Telefonbucheinträgen und die verwendeten Verfahren zur automatischen Transkription von Namen, die nicht im Lexikon enthalten sind. Sowohl für die Performanz des Transkriptionsmoduls als auch die Verständlichkeit des finalen Gesamtsystems werden die Ergebnisse der Evaluation vorgestellt.},

url = {https://hdl.handle.net/20.500.11811/3964}
}

Die folgenden Nutzungsbestimmungen sind mit dieser Ressource verbunden:

InCopyright