h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Biologically inspired binaural sound source localization and tracking for mobile robots = Biologisch inspirierte binaurale Schallquellenlokalisierung und Verfolgung für mobile Roboter



Verantwortlichkeitsangabevorgelegt von Laurent Calmes

ImpressumAachen : Publikationsserver der RWTH Aachen University 2009

UmfangXII, 129 S. : Ill., graph. Darst.


Aachen, Techn. Hochsch., Diss., 2009

Zsfassung in dt. und engl. Sprache


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2009-12-23

Online
URN: urn:nbn:de:hbz:82-opus-31004
URL: https://publications.rwth-aachen.de/record/51525/files/Calmes_Laurent.pdf

Einrichtungen

  1. Lehr- und Forschungsgebiet Informatik 5 (Wissensbasierte Systeme) (121920)
  2. Lehrstuhl und Institut für Biologie II (Zoologie) (162110)
  3. Fachgruppe Biologie (160000)
  4. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Mobiler Roboter (Genormte SW) ; Bionik (Genormte SW) ; Richtungshören (Genormte SW) ; Objektverfolgung (Genormte SW) ; Markov-Ketten-Monte-Carlo-Verfahren (Genormte SW) ; Informatik (frei) ; mobile robot (frei) ; bionics (frei) ; directional hearing (frei) ; object tracking (frei) ; Markov chain Monte Carlo (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Diese Dissertation befasst sich mit biologisch inspirierten Methoden der binauralen Schallquellenlokalisierung für mobile Roboter. Zweitens wird eine von der Schleiereule inspirierte Methode zur Modulierung der Aufmerksamkeit des Roboters vorgestellt und drittens ein System, das es dem Roboter ermöglicht, Schall erzeugende Objekte zu verfolgen. Die Schalllokalisierungsmethode die am besten verstanden und untersucht wurde beruht auf interauralen Zeitdifferenzen (interaural time differences; ITDs). Dafür gibt es einen einfachen Grund. Solange sich keine Struktur zwischen den Mikrophonen befindet und die Schallquelle im Fernfeld ist, wird die ITD vom Schallquellenazimut über eine einfache Gleichung bestimmt, die zusätzlich nur noch den Mikrophonabstand (konstant) und die Schallgeschwindigkeit (kann man als konstant annehmen) enthält. Unter diesen Bedingungen lässt sich die Methode leicht an verschiedene Hardware-Plattformen anpassen: man muss nur beide Mikrophone anbringen und der Software den korrekten Abstand eingeben. Die Methode, die wir für ITD-basierte Schalllokalisierung benutzen detektiert Phasenkoinzidenz für individuelle Frequenzbänder im Frequenzbereich und eliminiert Phasenmehrdeutigkeiten durch Frequenzintegration. Die mit dem System erzielten Ergebnisse sind sehr gut. Breitbandige Signale können mit einer Präzision von ±2° lokalisiert werden. Die Lokalisierung von Sinustönen ist erwartungsgemäß unzuverlässig. Unerwartet war die niedrige Lokalisierungspräzision für 100 Hz – 1 kHz Rauschen. Durch Simulation der Raumakustik konnte ermittelt werden, dass dies auf Echos zurückzuführen ist. In größeren Räumen (oder solchen mit einem niedrigeren Verhältnis von Direktschall zu Echos) wird die Lokalisierung von Breitbandsignalen auch schlechter, was wir in Versuchen auf einem Roboter überprüfen konnten. Bei ITD-basierter Schalllokalisierung muss also Rücksicht auf die Raumakustik genommen werden. Interaurale Pegeldifferenzen (interaural level differences; ILDs), werden prinzipbedingt stark durch den Mikrophonaufbau beinflusst. Dadurch ist es schwieriger, ILD-basierte Schalllokalisierung auf neue Plattformen anzupassen. Dafür muss der gesamte Aufbau kalibriert werden, d.h. es müssen für jede mögliche Kombination von Azimut und Elevation die entsprechenden frequenzabhängigen ILD Werte gemessen werden, welche der Schalllokalisierungsalgorithmus dann nutzen kann. Dies ist ein langwieriger Prozess, der jedes Mal wiederholt werden muss, wenn sich am Mikrophonaufbau etwas ändert. Versuche mit künstlichen Eulenschleiern illustrieren dies: kleine Änderungen am Schleier können große Änderungen der ILDs (und kleinere Änderungen der ITDs) hervorrufen. Die Methode, die wir für ILD-Lokalisierung benutzen, beruht auf einem neuronalen Modell des Intensitätspfades der Schleiereule. Es werden die neuronalen Antworten des VLVp und des ICc ls und die Verbindungen zwischen diesen Arealen modelliert. Die Ergebnisse von Versuchen mit dem Algorithmus sind ermutigend. Erste Experimente haben gezeigt dass das System breitbandige Signale mit hoher Präzision im Bereich von -30°...+30° lokalisieren kann. Aufwendigere Versuche mit den künstlichen Eulenschleiern konnten dies bestätigen. Zudem ist es möglich – mit dem korrekten akustischen Entwurf des Schleiers – ILDs für diverse Anwendungen zu erzeugen. Z.B. kann man in Elevation lokalisieren und/oder ITD-basierte Azimut-Schätzungen verifizieren/korrigieren. Das auf einer “saliency map” basierte Aufmerksamkeitsmodul ist in der Lage, die Aufmerksamkeit eines Roboters auf einen bestimmten Bereich zu präaktivieren. Mit diesem System war es möglich (mit den Mikrophonen auf einer Schwenk-Neige-Einheit), einschlägige, mit Eulen durchgeführte Versuche zu durch Aufmerksamkeit bedingter Reaktionslatenz zu wiederholen. Unser System kann sehr einfach generalisiert werden, um die Aufmerksamkeit des Roboters auf mehreren Ebenen (von der Sensor- bis hin zur Planungsebene) zu modulieren. Die auf Markov chain Monte Carlo data association (MCMCDA) basierte Methode zur Verfolgung von Entitäten, bestehend aus der Kombiniation von Schallquellen und dynamischen Objekten, hatte Probleme, unsere simulierten Entitäten korrekt zu verfolgen. Es konnte gezeigt werden, dass die Methode im Wesentlichen funktioniert, dennoch hat sie einige Schwächen. MCMCDA mit einem virtuellen Sensor ist in der Lage, Schallquellen oder dynamische Objekte zu verfolgen. Die Kombination beider Modalitäten erzeugt aber Probleme. So lange individuelle Entitäten klar voneinander getrennt waren, konnten sie korrekt verfolgt werden. Sobald sie sich allerdings annäherten (oder ihre Wege sich kreuzten), versagte die Verfolgung. Dies ist auf die fehlende Entfernungsinformation der Schalllokalisierungsmodalität zurückzuführen. Solange diese Unzulänglichkeiten nicht behoben werden, macht es wenig Sinn, die Methode auf einem realen Roboter zu testen. Deshalb wurden die Versuche mit MCMCDA in dieser Dissertation nur in Simulationen durchgeführt.

This thesis proposes biologically inspired methods of binaural sound source localization for mobile robots. We also propose a method for modulating a robot's attention inspired from the barn owl and last, a tracking system which makes it possible for a robot to track objects emitting sounds. Regarding sound source localization, the method that was best understood and evaluated is a method based on the evaluation of interaural time differences (ITDs). There is a simple reason for this state of affairs. Interaural time differences are influenced mainly by the inter-microphone distance, provided there is no major obstruction between them. This would make the sound waves bend around the structure and thus increase path length and ITD in a frequency-specific manner. With no obstruction between the microphones and under the far-field assumption, the interaural time difference relates to azimuth through a simple equation, where only inter-microphone distance (constant) and speed of sound (can be regarded constant) are required additionally. Under these conditions, it is easy to adapt ITD localization to different hardware platforms. The method we use for ITD based localization relies on detecting phase coincidence for individual frequencies in the frequency domain and subsequent frequency integration to eliminate phase ambiguities. Overall, the results are excellent. Broadband signals can be localized with an accuracy of ±2°. Localization of pure tones is erratic, as was to be expected. The only unexpected behavior was a low accuracy in localizing 100 Hz – 1 kHz bandpass noise. Simulations in which the room acoustics could be controlled showed that this is caused by sound reflections from the environment. In larger rooms or, equivalently, rooms with a lower direct-to-reverberant ratio, localization precision of broadband signals also degrades significantly, which becomes evident in experiments on a real robot. All in all, care has to be taken as to the acoustic environment in which the ITD based localization is deployed, in order to achieve best performance. Interaural level differences based sound source localization relies on the acoustical properties of the microphone mount assembly and supporting structures. This means that adapting ILD localization to a new platform is more difficult. It requires mounting the microphones and then calibrating the whole setup to record the resulting azimuth/elevation/frequency dependent ILD values, which can then be used by the sound source localization algorithm. This is a quite elaborate, time-consuming procedure which has to be repeated every time something changes in the way the microphones are mounted - or if the microphones themselves are changed. Experiments with artificial owl ruffs illustrate this: even small changes in the ruff can have a huge impact on the ILDs (and, to a lesser degree, on the ITDs). The method for ILD based sound source localization relies on a neuronal model of the barn owl's auditory intensity pathway. Specifically, the neuronal responses in the VLVp and the ICc ls as well as the connections between these areas are modeled. The results of the experiments with the algorithm are encouraging. First tests showed that the system was able to accurately localize broadband sound sources in the range of -30°...+30°. More elaborate artificial ruffs experiments confirmed these results. Furthermore, with the correct acoustic design of the artificial ruff, it is possible to use the ILDs for various purposes as for example localization in elevation and/or verification/correction of the ITD based azimuth estimates. With the attentional module based on a neuronal saliency map it is possible to preactivate a robot's attention to a specific region of interest. It was possible to successfully reproduce with a robotic pan-tilt unit attentional latency experiments that were performed with barn owls. But the system we propose can easily be generalized to modulate (in several instances) the attention of the robot at various levels, from basic sensor level up to planning level. The Markov chain Monte Carlo based combined sound source and dynamic object tracking had a few problems accurately tracking simulated entities. Although the general viability of the method could be shown, the algorithm still has several shortcomings. MCMCDA with a virtual sensor is able to correctly track sound sources and objects alone, but the combination of both modalities in one track proved to be difficult. As long as individual entities are in clearly distinct positions, correct tracks are produced, but if they approach each other or - even worse - cross paths, tracking breaks down. This seems to be caused mainly by the lack of distance information in the sound source localization modality. As long as these shortcomings are not addressed, it makes little sense to test the method on a real robot. This is why the MCMCDA experiments in this thesis were limited to simulations.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-113810
Datensatz-ID: 51525

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Biology
Publication server / Open Access
Public records
Publications database
120000
121920
160000
162110

 Record created 2013-01-28, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)