Automatische Spracherkennung für agierende Systeme

Hohenner S (2004)
Bielefeld (Germany): Bielefeld University.

Bielefelder E-Dissertation | Deutsch
 
Download
OA
Autor*in
Hohenner, Sascha
Gutachter*in / Betreuer*in
Fink, Gernot A.
Abstract / Bemerkung
Sprache ist ein wichtiger, wenn nicht sogar der wichtigste Bestandteil bei der zwischenmenschlichen Kommunikation. Das bedeutet wiederum, dass bei einer für den Menschen möglichst natürlichen Gestaltung der Kommunikation und Interaktion mit agierenden Systemen (Haushaltshilfen, Laborassistenten, instruierbare Montagesysteme, etc.) der automatischen Spracherkennung eine wichtige Rolle zukommt, da diese die Basis für Kommunikations- und Interaktionskomponenten wie z.B. Sprachverstehen und Dialogsysteme bildet. Dabei werden sehr vielfältige Ansprüche an eine entsprechende Sprachperzeptionskomponente gestellt. In dieser Arbeit wurden einige dieser Aspekte genauer untersucht und Verfahren entwickelt, die die "Natürlichkeit" bei der Interaktion mit solchen Systemen erhöht. Folgende Aspekte standen im Mittelpunkt: Die Robustheit der Spracherkennung, die Geschwindigkeit, mit der Äußerungen erkannt werden, sowie die Spracherkennung auf der Basis von zwei Mikrofonen, die sich direkt am agierenden System befinden (Distant-Talking Spracherkennung). Mit Robustheit wird die Erkennungsleistung hinsichtlich der Erkennungsfehler und deren Reduktion bezeichnet. Für Systeme, die in geräuschvollen Umgebungen agieren, sinkt die Erkennungsleistung einer Sprachperzeptionskomponente deutlich, da durch Überlagerung von Sprachsignal und Störgeräuschen vermehrt Fehler bei der Erkennung des Gesprochenen auftreten. Dieses Phänomen tritt auch bei der menschlichen Sprachwahrnehmung auf: Je lauter die Umgebung, desto schwieriger ist es, einen Gesprächspartner akustisch zu verstehen. Die menschliche Sprachwahrnehmung ist dabei jedoch wesentlich robuster als aktuelle Spracherkennungssysteme. Das liegt u.a. an der akustischen Wahrnehmung des Menschen: Das Gehör verfügt über Eigenschaften, die bei der menschlichen Spracherkennung eine wichtige Rolle spielen, in Spracherkennungssystemen jedoch nur teilweise berücksichtigt werden. Da sich die Einbindung solcher Eigenschaften bereits in einigen Fällen als sehr erfolgreich erwiesen hat, wurde eine weitere Eigenschaft des menschlichen Gehörs, die Vorwärtsmaskierung, in das Spracherkennungssystem eingebunden und dadurch die Robustheit erhöht. Der Aspekt der Erkennungsgeschwindigkeit bezieht sich auf die Zeit, die ein Spracherkennungssystem benötigt, um Erkennungsergebnisse zu liefern. Bei komplexen Spracherkennungssystemen wird oft mehr Verarbeitungszeit benötigt als die zeitliche Länge der Äußerung beträgt, um das bestmögliche Erkennungsergebnis zu erreichen, so dass eine zeitliche Verzögerung zwischen dem Beenden einer Äußerung und dem Vorliegen des Erkennungsergebnisses auftritt. Für eine möglichst natürliche Interaktion mit agierenden Systemen sollten solchen Verzögerungen gewisse Grenzen gesetzt werden. Daneben ist zu bedenken, dass sich agierende Systeme in ihrer Umgebung bewegen oder Objekte manipulieren können. Dabei kann sich das System auch anders verhalten als gewünscht, weil z.B. eine Äußerung missverstanden wurde oder tatsächlich fehlerhaft war. In solchen Fällen ist mit einer Korrektur von Seiten des Menschen noch vor Beendigung einer fehlerhaften Aktion zu rechnen. Geschieht diese Korrektur verbal, sollte eine entsprechende Äußerung ohne nennenswerte zeitliche Verzögerungen vom System verstanden werden, damit es entsprechend schnell seine Aktion stoppen bzw. korrigieren kann. Deshalb wurde ein Verfahren entwickelt, das die Steuerung der Erkennungsgeschwindigkeit ermöglicht und dabei eine möglichst hohe Robustheit gewährleistet. Der letzte Aspekt der Distant-Talking Spracherkennung bezeichnet eine Spracherkennung mit zwei Mikrofonen, die sich nicht beim Sprecher, sondern direkt am agierenden System befinden. Allgemein werden sehr gute Erkennungsergebnisse erzielt, wenn die Aufnahme des Sprachsignals über ein Nahbesprechungsmikrofon erfolgt, das sich direkt am Kommunikationspartner befindet. Soll eine Interaktion mit verschiedenen Partnern erfolgen, muss das Mikrofon entweder "weitergereicht" werde, oder jeder Partner muss über ein eigenes Mikrofon verfügen. Außerdem muss jeder Partner selbst dafür sorgen, dass das System nur dann auf Sprache reagiert, wenn es auch angesprochen wird, indem er z.B. das Mikrofon ein- bzw. ausschaltet. Solche unnatürlichen Szenarien lassen sich vermeiden, indem das agierende System selbst über ein Mikrofon verfügt. Dabei ist jedoch die Distanz zwischen Sprecher und Mikrofon entsprechend größer und das Sprachsignal kann beim Eintreffen am Mikrofon stärker mit Geräuschen überlagert sein. Daher werden zwei Mikrofone verwendet, um eine bessere Erkennungsleistung zu erreichen. Gleichzeitig können mit zwei Mikrofonen Kommunikationspartner im Raum lokalisiert werden. Bei der Distant-Talking Spracherkennung wurden also zwei Ziele verfolgt: Die Lokalisation von Kommunikationspartnern, um die Aufmerksamkeit des Systems auf diesen lenken zu können, sowie die Spracherkennung auf der Basis von Stereo-Mikrofonen.
Stichworte
Übertragungsfehler; Fehlermaskierung; BIRON (Bielefeld Robot Companion); Störgeräusch; Robustheit; Automatische Spracherkennung; Mensch-Maschine-Kommunikation; Dialogsystem
Jahr
2004
Page URI
https://pub.uni-bielefeld.de/record/2302226

Zitieren

Hohenner S. Automatische Spracherkennung für agierende Systeme. Bielefeld (Germany): Bielefeld University; 2004.
Hohenner, S. (2004). Automatische Spracherkennung für agierende Systeme. Bielefeld (Germany): Bielefeld University.
Hohenner, Sascha. 2004. Automatische Spracherkennung für agierende Systeme. Bielefeld (Germany): Bielefeld University.
Hohenner, S. (2004). Automatische Spracherkennung für agierende Systeme. Bielefeld (Germany): Bielefeld University.
Hohenner, S., 2004. Automatische Spracherkennung für agierende Systeme, Bielefeld (Germany): Bielefeld University.
S. Hohenner, Automatische Spracherkennung für agierende Systeme, Bielefeld (Germany): Bielefeld University, 2004.
Hohenner, S.: Automatische Spracherkennung für agierende Systeme. Bielefeld University, Bielefeld (Germany) (2004).
Hohenner, Sascha. Automatische Spracherkennung für agierende Systeme. Bielefeld (Germany): Bielefeld University, 2004.
Alle Dateien verfügbar unter der/den folgenden Lizenz(en):
Copyright Statement:
Dieses Objekt ist durch das Urheberrecht und/oder verwandte Schutzrechte geschützt. [...]
Volltext(e)
Access Level
OA Open Access
Zuletzt Hochgeladen
2019-09-06T08:57:39Z
MD5 Prüfsumme
9f0c5e14f54cac41deca72cdbd33e0a0

Automatisch aus der Originaldatei erzeugtes PDF
Name
Access Level
OA Open Access
Zuletzt Hochgeladen
2023-08-03T15:15:31Z
MD5 Prüfsumme
5c1e5656a2999e3a47bcd70a68da5b8d

Export

Markieren/ Markierung löschen
Markierte Publikationen

Open Data PUB

Suchen in

Google Scholar