Loading…
Thumbnail Image

Integration of Short-Time Fourier Domain Speech Enhancement and Observation Uncertainty Techniques for Robust Automatic Speech Recognition

Fernández Astudillo, Ramón

Diese Arbeit untersucht die Kombination von Störgeräuschunterdrückungstechniken im Kurzzeit-Fourier-(STFT)-Bereich mit automatischer Spracherkennung (ASR), um eine robustere Spracherkennung zu erreichen. Die konventionellen Störgeräuschunterdrückungstechniken arbeiten im STFT-Bereich, in dem die Interaktion von Sprache und Geräuschen einfacher zu modellieren ist. ASR-Systeme sind jedoch leistungsfähiger in Bereichen, die nichtlinearen Transformationen des STFT-Bereichs entsprechen und in denen die Modellierung des akustischen Raums einfacher ist. Typischerweise liefert eine Störgeräuschunterdrückungsmethode eine Punktschätzung der STFT der sauberen Sprache, die direkt in den Merkmals-Bereich, in dem das ASR-System arbeitet, transformiert wird. Der hier vorgeschlagene Ansatz ersetzt diese Punkt-Schätzung durch eine a posteriori-Verteilung der sauberen Fourierkoeffizienten bei gegebenen beobachteten gestörten Fourierkoeffizienten. Diese Verteilung verkörpert die Unsicherheit nach der Störgeräuschunterdrückung. Durch die Transformation dieser unsicheren Beschreibung des sauberen Signals in den Erkennungs-Bereich, wird eine a posteriori-Verteilung der sauberen Sprachmerkmale auf Basis der beobachtbaren Information gewonnen. Diese Verteilung kann dann durch die Anwendung von Observation Uncertainty-Techniken mit dem statistischen Modell des ASR-Systems kombiniert werden, um eine robustere Spracherkennung zu erreichen. In Bezug auf die Schätzung und Modellierung von Unsicherheit wurden Modelle auf der Basis von komplexen Gauss- und nicht-zentralen Chi-Verteilungen eingeführt. Für Störgeräuschunterdrückungsmethoden nach dem Minimum Mean Square Error-(MMSE-) Kriterium sowie nach dem komplexen vom European Telecommunications Standards Institute (ETSI) spezifizierten Advanced Front-End (AFE) wurden Methoden zur Schätzung der Unsicherheit entwickelt. Die Erweiterung der MMSE-Schätzer auf super-gauss´sche a priori-Verteilungen mit Hilfe komplexer gauss´scher Mischungs-Modelle und ihre Auswirkungen auf die Unsicherheits-Verteilungen wurden ebenfalls betrachtet. In Bezug auf die Transformation der Unsicherheit in dem Merkmals-Bereich wurde ein schrittweiser Ansatz entwickelt, der geschlossene Lösungen und Pseudo-Montecarlo-Methoden kombiniert. Damit können die oben genannten Modelle durch verschiedene Verfahren zur Merkmalsextraktion propagiert werden. Diese betreffen das Mel-Cepstrum, die RASTA-PLP-Koefficienten sowie weitere Merkmale im AFE. Die vorgeschlagenen Algorithmen wurden mit der AURORA5-Testumgebung und der JEIDA-Geräusch-Datenbank getestet. Die beiden Observation Uncertainty-Techniken ''Modified Imputation'' und ''Uncertainty Decoding'', wurden zu diesem Zweck in dem weit verbreiteten Hidden Markov Model Toolkit (HTK) implementiert. Die vorgeschlagenen Algorithmen zeigen eine deutliche Verbesserung gegenüber den AFE- und MMSE-Störgeräuschunterdrückungsmethoden bei lediglich geringer Erhöhung der Komplexität.
This thesis explores the integration of speech enhancement techniques in the short-time Fourier transform (STFT) domain with automatic speech recognizers (ASRs) to achieve a more robust speech recognition. Conventional speech enhancement techniques work in the STFT domain where the interaction of speech and noise is easier to model. ASR systems perform best, however, in feature domains non-linearly related to the STFT domain which facilitate the modeling of the acoustic space. Typically, a speech enhancement method provides a point estimate of the STFT of the clean speech, which is directly transformed into the feature domain where the ASR system operates. The approach proposed here replaces this point-estimate by a posterior distribution of the clean Fourier coefficients given the observed noisy Fourier coefficients. This posterior represents the uncertainty or missing information after speech enhancement. By transforming this uncertain description of the clean signal into the feature domain of the ASR, a posterior distribution of the clean speech features given the observable information can be obtained. This posterior of the clean speech features can then be combined with the statistical model of the ASR system using observation uncertainty techniques to yield a more robust speech recognition. Regarding the estimation and modeling of uncertainty, models based on the complex Gaussian and non-central Chi distributions are introduced. Methods for the computation of the uncertainty of estimation for minimum mean square error (MMSE) speech enhancement and more complex speech enhancement methods like the advanced front-end (AFE) described by the European Telecommunications Standards Institute (ETSI) were also developed. The extension of the MMSE estimators to supergaussian a priori distributions using complex Gaussian mixture models and its effect on the uncertainty distributions was also explored. Regarding the propagation of uncertainty, a piecewise approach combining closed-form solutions and pseudo-Montecarlo methods was developed to propagate the above mentioned uncertainty models through various types of feature extractions. These included the Mel-cepstral and the perceptual linear prediction (PLP) feature extractions with relative spectral (RASTA) filtering as well as additional transformations present in the AFE, like the log-energy or the blind equalization. The proposed algorithms were tested using the AURORA5 test environment and the JEIDA noise database. Two observation uncertainty techniques, modified imputation and uncertainty decoding, were implemented in the widely used hidden Markov model toolkit (HTK) for this purpose. The proposed algorithms show a clear improvement of the AFE and MMSE speech enhancement baselines with a low increase in computational complexity.