Loading…
Thumbnail Image

Independent Component Analysis for Environmentally Robust Speech Recognition

Kolossa, Dorothea

Automatische Spracherkennungssysteme haben in den letzten Jahren rapide Fortschritte gemacht und sind in vielen Fällen vom Prototyp zu einem tatsächlich verwendbaren Werkzeug geworden. Allerdings sind diese Systeme nach wie vor äußerst empfindlich gegenüber Störgeräuschen, besonders, wenn sie instationär sind und im Frequenzbereich große Überlappungen mit dem Nutzsignal aufweisen. Um automatische Spracherkennung auch in solchen Fällen zu ermöglichen, wird in dieser Dissertation die Verwendung der Independent Component Analysis (ICA) zur Trennung von mehreren, gleichzeitig aktiven, Sprechersignalen untersucht und auf die Anwendung in der Spracherkennung hin optimiert. Zu diesem Zweck werden drei Neuerungen vorgeschlagen. Zuerst wird eine neue Lösung für das Permutationsproblem vorgeschlagen, das den Einsatz von ICA-Methoden in realen Räumen stark erschwert. Dieses Problem tritt auf, wenn die ICA in jedem Frequenzband separat angewandt wird, da die ICA zu zufälligen Vertauschungen in der Reihenfolge der Ausgangssignale führt. Mit Hilfe eines statistischen Modells für die Einfallsrichtung des Nutz- und des Störsignals wird in dieser Dissertation eine Lösung angeboten, die eine Konvergenzgarantie, zumindest zu einem lokalen Optimum, liefern kann. Zum zweiten wird die Verwendung von Zeit-Frequenzmaskierung für ICA-Ausgangssignale beschrieben und untersucht. Zur Verbesserung der ICA-Ergebnisse wird dazu geschätzt, in welchen Zeit-Frequenzstützstellen der Zielsprecher und in welchen der Störsprecher bzw. das Störsignal dominiert. Aufgrund dessen kann mit einer nichtlinearen Nachverarbeitung die Trennungsqualität deutlich verbessert werden. Gegenüber anderen Zeit-Frequenzmaskierungsmethoden hat diese Vorgehensweise den Vorteil einer größeren Robustheit gegenüber Störungen und Rauschen. Weiterhin können mit der vorgeschlagenen Methode auch verhallte Signale verarbeitet werden. Während so durch Zeit-Frequenzmaskierung die ICA-Ergebnisse in Bezug auf das Signal-Störverhältnis deutlich verbessert werden können, erhöht sich die Leistung des Spracherkenners nicht wesentlich und kann in einigen Situationen sogar sinken. Dieses Problem lässt sich durch die starken Veränderungen in den für den Erkennungsprozess relevanten Sprachmerkmalen erklären, die die Maskierung mit sich bringt. Deswegen wird als dritter Aspekt dieser Arbeit eine neue Methode vorgeschlagen, statistische Informationen von der Vorverarbeitungsstufe, also der zeit-frequenzmaskierten ICA, zum Spracherkennungssystem zu übertragen und dort zur verbesserten Erkennung zu verwenden. Dadurch wird es möglich, dem Spracherkenner Konfidenzwerte für jedes Sprachmerkmal in jedem Zeitfenster zu übertragen. Die vorgeschlagene Methode basiert auf der “Unscented Transformation”, wodurch der Rechenaufwand vergleichsweise gering gehalten und eine große Flexibilität in Bezug auf die Art der Spracherkennermerkmale ermöglicht wird. Mit Hilfe der so übertragenen Unsicherheitsinformation wird dann eine robuste Erkennung des gestörten Sprachsignals unter Berücksichtigung der durch die Maskierung entstandenen Verfälschungen möglich. Insgesamt werden mit den neuen Methoden bessere Erkennungsraten erreicht, als es entweder mit ICA allein oder mit einer Kombination von ICA und Zeit-Frequenzmaskierung möglich ist. Um dies zu belegen, werden Ergebnisse für künstlich überlagerte verrauschte Sprachsignale und für reale Überlagerungen zweier Sprecher aus Kraftfahrzeug- und Laboraufnahmen präsentiert und mit den Ergebnissen von Standard-ICA-Verfahren in Bezug auf die Trennungsqualität und Erkennungsrate verglichen.
Automatic speech recognition systems have seen a rapid development in recent years, and in many cases they have evolved from prototypes to actually useful and productive tools. Despite this progress, however, speech recognizers are still highly sensitive with respect to noise and interferences, especially when these are instationary and show a large frequency domain overlap with the speech signal of interest. In order to make speech recognition applicable in such cases as well, this thesis investigates the use of Independent Component Analysis (ICA) for separating a number of simulta-neously active speech signals and describes its optimization for the task of speaker-speaker separation. For this purpose, three aspects of the robust recognition problem are solved by novel methods. Firstly, a new solution is shown for the permutation problem, which makes ICA in real-room conditions a difficult task. The permutation problem arises, when ICA is applied in each frequency bin separately, since ICA outputs are only given in an arbitrary re-ordering which may differ from frequency bin to frequency bin. In this thesis, a statistical model for the direction of arrival of the target and the interfering speaker is used for a solution, which can also offer a convergence guarantee at least to a local optimum. Secondly the use of time-frequency masking as a postprocessor of ICA output signals is described and evaluated. To improve separation results, the method finds the time-frequency points where the target is dominant and those points, where it is dominated by interference. Subsequently, those assignments can help to improve separation quality by a newly suggested nonlinear postprocessing. Compared to other methods of time-frequency masking, the new approach offers greater robustness with respect to interferers and noise as well as to reverberation in the environment. While such time-frequency masking can significantly improve ICA results regarding the signal to interference ratio, the quality of subsequent speech recognition does not improve notably and may even deteriorate in some conditions. This problem can be explained by the large changes that time-frequency masks cause in the features relevant for speech recognition. Therefore, as a third aspect of the thesis, a new method is derived for using uncertainty information from the preprocessing stage, i.e. the time-frequency masked ICA, in the speech recognition itself. By using the „Unscented Transform“, this uncertainty information is transformed from the time-frequency domain to the domain of the recognizer, where it is used for more robust recognition by giving information about the estimated distortions in the preprocessed speech signal. In its entirety, the new methods lead to better recognition results than those achieved by using only ICA, with or without time-frequency masks. To show this, experiments are performed for artificially mixed noisy speech signals and for real-room recordings of two simultaneously active speakers in reverberant rooms and in a car, and comparisons with standard ICA approaches are given regarding separation quality and recognizer performance.