Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-11197
Autor(en): Muschick, Peter
Titel: Learn2Sign : sign language recognition and translation using human keypoint estimation and transformer model
Erscheinungsdatum: 2020
Dokumentart: Abschlussarbeit (Master)
Seiten: 85
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-112143
http://elib.uni-stuttgart.de/handle/11682/11214
http://dx.doi.org/10.18419/opus-11197
Zusammenfassung: Sign language recognition and translation has been an active research field in the recent years with most approaches using deep neural networks to extract information from sign language data. This work investigates the mostly disregarded approach of using human keypoint estimation from image and video data with OpenPose in combination with transformer network architecture. Firstly, it was shown that it is possible to recognize individual signs (4.5% word error rate (WER)). Continuous sign language recognition though was more error prone (77.3% WER) and sign language translation was not possible using the proposed methods, which might be due to low accuracy scores of human keypoint estimation by OpenPose and accompanying loss of information or insufficient capacities of the used transformer model. Results may improve with the use of datasets containing higher repetition rates of individual signs or focusing more precisely on keypoint extraction of hands.
Die Erkennung und Übersetzung von Gebärdensprachen war in den letzten Jahren ein aktives Forschungsfeld, wobei die meisten Ansätze Deep Neuronal Networks verwenden um Informationen aus Gebärdensprachendaten zu extrahieren. Diese Arbeit untersucht den meist unberücksichtigten Ansatz der Verwendung der Schätzung menschlicher Keypoints aus Bild- und Videodaten mit OpenPose in Kombination mit der Transformator-Netzwerkarchitektur. Zunächst wurde gezeigt, dass es möglich ist, einzelne Zeichen zu erkennen (4,5 % Wortfehlerrate). Die kontinuierliche Erkennung von Gebärdensprachen war jedoch fehleranfälliger (77,3% Wortfehlerrate) und die Übersetzung von Gebärdensprachen war mit den vorgeschlagenen Methoden nicht möglich. Dies könnte aufgrund von niedriger Genauigkeit der Schätzung der menschlichen Keypoints durch OpenPose und dem damit verbundenen Informationsverlust oder aufgrund von unzureichenden Kapazitäten des verwendeten Transformatormodells zurückzuführen sein. Die Ergebnisse könnten durch die Verwendung von Datensätzen mit einer höheren Wiederholungsrate einzelner Zeichen verbessert werden oder wenn Schlüsselpunktextraktionen der Hände genauer betrachten werden.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Muschick_Masterarbeit.pdf5,45 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.