Optimizing neural fake speech detection using post hoc analysis

Reich, Kevin

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-11702

Autor(en):	Reich, Kevin
Titel:	Optimizing neural fake speech detection using post hoc analysis
Erscheinungsdatum:	2021
Dokumentart:	Abschlussarbeit (Master)
Seiten:	76
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-117196 http://elib.uni-stuttgart.de/handle/11682/11719 http://dx.doi.org/10.18419/opus-11702
Zusammenfassung:	With the technological advance in speech synthesis methods, it has become apparent that attackers can abuse this technology to launch fake speech attacks in a number of ways: faking the voice of a supervisor to order an employer to make money transfers, spreading fake news and propaganda or spoofing automatic speaker verification (ASV) systems. Thus, it has become important to detect whether speech is genuine or artificially created. A small scale study contained in this thesis indicates that humans do not solve this problem trivially and therefore will need the help of automatic counter measure (CM) systems. The most successful automatic approaches use neural networks to solve the problem. In our work, we analyzed the decision making process of neural CM systems and used that insight to improve the performance of the best network we observed. Our work was done on the ASVspoof 2019 dataset as it was the only popular fake speech dataset in use when we started our work. First, we showed that using spectrogram images as input is a legitimate way to solve the task of fake speech detection. This allowed us to use image classification models and the post hoc analysis method Score-CAM. Among the multiple image classification models we tested, EfficientNet-B3 achieved the best scores. Our post hoc analysis for the EfficientNet revealed that it uses background noise and features in the lower frequencies to distinguish between real and fake speech samples. We used that insight in two follow-up experiments to improve the models performance by 28.7% and 30.25% respectively. The model from the second follow up experiment is the fifth best non-ensemble model for the ASVspoof 2019 LA dataset up to date. This highlights the importance of understanding what neural networks are actually doing since it can be used to optimize their performance significantly. Mit dem technologischen Fortschritt im Bereich der Sprachsynthese wurde offensichtlich, dass Angreifer diese Technologie auf verschiedenste Weise missbrauchen können. Mögliche Beispiele dafür sind Imitation der Stimme des Vorgesetzten, um Transaktionen anzuordnen, die Erzeugung von Fake News und Propaganda, oder Angriffe um Spracherkennungssysteme auszutricksen. Aus diesem Grund ist es wichtig erkennen zu können, ob Sprache echt oder künstlich erzeugt wurde. Als Teil dieser Masterarbeit haben wir in einer kleinen Studie festgestellt, dass Menschen dieses Problem nicht trivial lösen und desshalb die Hilfe von automatischen Erkennungssystemen benötigen. Die erfolgreichsten automatischen Erkennungssysteme nutzen neuronale Netze, um das Problem zu lösen. In unserer Arbeit haben wir uns dazu entschieden, den Entscheidungsprozess von neuronalen Erkennungssystem zu analysieren, und konnten die Erkenntnisse nutzen, um das beste betrachtete System zu verbessern. Wir haben unsere Experimente auf dem ASVspoof 2019 Datensatz durchgeführt, da es der populärste Datensatz zu Beginn unserer Arbeit war. Als erstes konnten wir zeigen, dass es ohne Verlust von Erkennungsleistung möglich ist, Spektrogrammkoeffizienten durch Spektrogrammbilder als Eingabe zu ersetzen, um das Problem der Erkennung von künstlicher Sprache zu lösen. Dadurch konnten wir Bildklassifizierungsnetzwerke und die Post-hoc-Analyse Methode Score-CAM nutzen. Beim Vergleichen mehrerer Bildklassifizierungsnetzwerke hat sich EfficientNet-B3 als das beste Model herausgestellt. Unsere Post-hoc-Analyse des EfficientNet brachte zu Tage, dass sowohl Hintergrundgeräusche als auch Features in den niedrigen Frequenzen relevant für die Unterscheidung zwischen echter und künstlicher Sprache sind. Diese Erkentniss konnten wir in zwei Follow-Up-Experimenten nutzen, um die Fehlerrate des EfficientNet um 28.7% und um 30.25% zu senken. Damit haben wir das momentan fünftbeste Model für den ASVspoof-2019-Datensatz trainiert, welches kein Ensemble aus mehreren Netzwerken ist.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Reich_Master Thesis.pdf		11,47 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart