h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Investigations on linear transformations for speaker adaptation and normalization



Verantwortlichkeitsangabevorgelegt von Michael Pitz

ImpressumAachen : Publikationsserver der RWTH Aachen University 2005

UmfangVI, 154 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2005

Zusammenfassung in dt. und engl. Sprache


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2005-03-14

Online
URN: urn:nbn:de:hbz:82-opus-11045
URL: https://publications.rwth-aachen.de/record/52788/files/Pitz_Michael.pdf

Einrichtungen

  1. Fakultät für Mathematik, Informatik und Naturwissenschaften (100000)

Inhaltliche Beschreibung (Schlagwörter)
Automatische Spracherkennung (Genormte SW) ; Sprecheradaption (Genormte SW) ; Vokal (Genormte SW) ; Lautquantität (Genormte SW) ; Verzerrung (Genormte SW) ; Funktionaldeterminante (Genormte SW) ; Lineare Transformation (Genormte SW) ; Maximum-Likelihood-Schätzung (Genormte SW) ; Lineare Regression (Genormte SW) ; Mathematik (frei)

Thematische Einordnung (Klassifikation)
DDC: 510

Kurzfassung
In modernen automatischen Spracherkennungssystemen sind lineare Transformationen ein beliebtes Mittel, um einer Diskrepanz von Trainings- und Testdaten entgegenzuwirken und somit die Erkennungsleistung zu steigern. Eine Vielzahl von Ansätzen ist in der Literatur vorgeschlagen worden, allerdings wurden die Zusammenhänge zwischen den Ansätzen bisher vernachlässigt. Durch die Entwicklung einer vereinheitlichten mathematischen Beschreibung werden enge Zusammenhänge zwischen den einzelnen Ansätzen aufgezeigt und ausführlich untersucht. Mel-Frequenz Cepstrum Koeffizienten (MFCC) werden sehr häufig als Merkmale in automatischen Spracherkennungssystemen eingesetzt. Der übliche Ansatz zur Berechnung der MFCC beinhaltet allerdings eine doppelte Glättung, was sowohl die Berechnung der MFCC als auch die Parameteroptimierung erschwert. Es wird ein verbesserter Ansatz vorgestellt, der auf eine Filterbank verzichtet und somit die doppelte Glättung vermeidet. Dieser integrierte Ansatz erlaubt eine sehr kompakte Implementierung und benötigt weniger zu optimierende Parameter. Ausgehend von dieser neuen Methode zur Berechnung der MFCC wird analytisch gezeigt, daß Vokaltraktlängennormierung (VTN) für beliebige invertierbare Verzerrungsfunktionen als eine lineare Transformation im Cepstrumraum dargestellt werden kann. Die Transformationsmatrix für VTN wird beispielhaft für drei häufig verwendete Verzerrungsfunktionen explizit berechnet. Basierend auf einigen generellen Eigenschaften typischer VTN Verzerrungsfunktionen wird eine gemeinsame Struktur der Transformationsmatrizen abgeleitet, die größtenteils unabhängig von der funktionellen Form der Verzerrungsfunktion ist. Durch die Möglichkeit VTN als lineare Transformation auszudrücken ist es erstmals möglich die Jacobi-Determinante der Transformation für beliebige Warpingfunktionen zu berücksichtigen. Die Auswirkungen der Berücksichtigung der Jacobi-Determinante bei der Warpingfaktorschätzung werden ausführlich untersucht. Der zweite Teil dieser Arbeit beschäftigt sich mit einer speziellen linearen Transformation zur Sprecheradaption, des Maximum Likelihood Linear Regression (MLLR) Ansatzes. Basierend auf dem engen Zusammenhang von MLLR und VTN, der im ersten Teil gezeigt wurde, wird die generelle Form der VTN-Matrix auf die MLLR-Matrix übertragen, um diese auf eine Bandstruktur einzuschränken. Dadurch wird die MLLR Adaption besonders für den Fall von wenigen verfügbaren Adaptionsdaten erheblich verbessert. Schließlich werden mehrere Verbesserungen der Sprecheradaption mittels MLLR präsentiert. Eine Erweiterung zielt auf eine verbesserte Definition der Regressionsklassen ab, was speziell für den Fall einer schnellen Adaption mit wenigen Adaptionsdaten eine besondere Bedeutung hat. Eine weitere Verbesserung nutzt Konfidenzmaße, um einer Verschlechterung der Adaptionsleistung durch Erkennungsfehler im ersten Durchgang eines mehrstufigen Adaptionsprozesses entgegenzuwirken.

This thesis deals with linear transformations at various stages of the automatic speech recognition process. In current state-of-the-art speech recognition systems linear transformations are widely used to care for a potential mismatch of the training and testing data and thus enhance the recognition performance. A large number of approaches has been proposed in literature, though the connections between them have been disregarded so far. By developing a unified mathematical framework, close relationships between the particular approaches are identified and analyzed in detail. Mel frequency Cepstral coefficients (MFCC) are commonly used features for automatic speech recognition systems. The traditional way of computing MFCCs suffers from a twofold smoothing, which complicates both the MFCC computation and the system optimization. An improved approach is developed that does not use any filter bank and thus avoids the twofold smoothing. This integrated approach allows a very compact implementation and needs less parameters to be optimized. Starting from this new computation scheme for MFCCs, it is proven analytically that vocal tract normalization (VTN) equals a linear transformation in the Cepstral space for arbitrary invertible warping functions. The transformation matrix for VTN is explicitly calculated exemplary for three commonly used warping functions. Based on some general characteristics of typical VTN warping functions, a common structure of the transformation matrix is derived that is almost independent of the specific functional form of the warping function. By expressing VTN as a linear transformation it is possible, for the first time, to take the Jacobian determinant of the transformation into account for any warping function. The effect of considering the Jacobian determinant on the warping factor estimation is studied in detail. The second part of this thesis deals with a special linear transformation for speaker adaptation, the Maximum Likelihood Linear Regression (MLLR) approach. Based on the close interrelationship between MLLR and VTN proven in the first part, the general structure of the VTN matrix is adopted to restrict the MLLR matrix to a band structure, which significantly improves the MLLR adaptation for the case of limited available adaptation data. Finally, several enhancements to MLLR speaker adaptation are discussed. One deals with refined definitions of regression classes, which is of special importance for fast adaptation when only limited adaptation data are available. Another enhancement makes use of confidence measures to care for recognition errors that decrease the adaptation performance in the first pass of a two-pass adaptation process.

Fulltext:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Externe Identnummern
HBZ: HT014409994

Interne Identnummern
RWTH-CONV-114986
Datensatz-ID: 52788

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > No department assigned
Publication server / Open Access
Public records
Publications database
100000

 Record created 2013-01-28, last modified 2023-06-19


Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)