Repetition-based Structure Analysis of Music Recordings

Language
en
Document Type
Doctoral Thesis
Issue Date
2015-03-25
Issue Year
2015
Authors
Jiang, Nanzhu
Editor
Abstract

Music Information Retrieval (MIR) is a current area of research which aims at providing techniques and tools for searching, organizing, processing and interacting with music data. In order to extract musically meaningful information from audio recordings, one requires methods from various fields such as digital signal processing, music theory, human perception, and information retrieval. One central research topic within MIR is referred to as music structure analysis, where an important goal is to divide a music recording into temporal segments and to group these segments into musically meaningful categories. The extracted structural information can be used for a variety of other MIR tasks including music navigation, audio thumbnailing, audio summarization, and chord recognition.

The structure of a music recording depends on various principles such as temporal order, repetition, contrast, variation and homogeneity. Based on these principles, many approaches for music structure analysis have been proposed in the literature. However, it remains difficult to perform music structure analysis in a fully automated fashion. One reason is that music structure can be considered on different temporal levels so that even music experts may disagree on how to structure a given piece of music. Furthermore, the task of music structure analysis is complex when analyzing audio recordings due to possible acoustic variations across different musical sections.

In this thesis, we focus on repetition-based approaches for music structure analysis. As one main contribution, we introduce a novel fitness-based method that extracts repetitive structures from audio recordings. First, using signal processing techniques, the given audio recording is converted into a feature sequence that captures harmonic and melodic aspects. Next, using the concept of similarity matrices, the feature sequence is analyzed with respect to recurring patterns. In particular, we discuss various enhancement techniques to cope with musical variations such as tempo differences and transpositions. Using alignment techniques related to Dynamic Time Warping (DTW), we introduce a novel fitness measure that assigns a fitness value to each segment. Each fitness value expresses how much and how well the respective segment explains the repetitive structure of the entire recording. This fitness measure serves as the main basis for several other contributions made in this thesis.

First of all, we deal with a subproblem of music structure analysis called audio thumbnailing with the goal to determine the audio segment that best represents a given music recording. We show that our fitness measure is useful in detecting suitable audio thumbnails by considering segments of high fitness. Then, we present a novel scape plot representation that makes it possible to visualize repetitive structures of the entire music recording in a hierarchical, compact, and intuitive way. This visualization does not only indicate the benefits and limitations of our methods, but also yields interesting musical insights into the data. As an application within musicology, we show how our techniques can be applied for analyzing and segmenting music recordings in sonata form. To this end, we adapted our repetition-based approach for detecting the coarse structure of a sonata (exposition, development, recapitulation) and introduced a rule-based approach measuring local harmonic relations for analyzing finer substructures. Furthermore, we discuss how the fitness-based structure analysis can be extended for deriving more general musical structures that consist of several groups of repeating segments. As a further technical contribution, we show how the computational efficiency of our structure analysis approach can be improved significantly by using multi-resolution strategies.

Abstract

Das aktuelle Forschungsgebiet des Music Information Retrieval (MIR) befasst sich mit der Bereitstellung von Techniken und Werkzeugen zum Suchen, Organisieren, Verarbeiten sowie zur Interaktion mit Musikdaten. Um musikalisch sinnvolle Informationen aus Audioaufnahmen zu extrahieren, werden Methoden aus vielen Bereichen, darunter digitale Signalverarbeitung, Musiktheorie, menschliche Wahrnehmung und dem Information Retrieval eingesetzt. Ein zentrales Forschungsgebiet im MIR ist die Musikstrukturanalyse, bei der ein Musikstück in zeitliche Segmente zerlegt wird und diese anschließend in musikalisch sinnvolle Kategorien gruppiert werden. Die extrahierte Strukturinformation kann für eine Vielzahl anderer MIR-Aufgabenstellungen wie Musiknavigation, Audio Thumbnailing, Audiozusammenfassung und Akkorderkennung verwendet werden.

Die Struktur einer Musikaufnahme hängt von verschiedenen Aspekte wie der zeitlichen Reihenfolge, von Wiederholungen, Kontrasten, Variationen und Homogenität ab. In der Literatur finden sich viele Ansätze zur Musikstrukturanalyse, die auf diese Prinzipien aufbauen. Allerdings erweist es sich als schwierig, eine Musikstrukturanalyse vollständig automatisiert durchzuführen. Ein Grund dafür ist, dass Musikstruktur auf verschiedenen zeitlichen Stufen betrachtet werden kann, sodass selbst Musikexperten darüber streiten mögen, wie ein konkretes Musikstück zu strukturieren sei. Weiterhin ist die Musikstrukturanalyse von Audioaufnahmen eine schwierige Aufgabe aufgrund möglicher akustischer Unterschiede über verschiedene musikalische Passagen hinweg.

In dieser Arbeit konzentrieren wir uns auf wiederholungsbasierte Ansätze zur Musikstrukturanalyse. Als Hauptbeitrag stellen wir eine neuartige, fitness-basierte Methode vor, welche geeignet ist, Wiederholungsstrukturen in einer Audioaufnahme zu detektieren. Hierzu wird die Aufnahme zuerst mittels Methoden der Signalverarbeitung in eine Merkmalsdarstellung überführt, die harmonische und melodische Eigenschaften abbildet. Durch die Verwendung von Selbstähnlichkeitsmatrizen wird diese Merkmalsdarstellung bezüglich wiederholt auftretender Muster analysiert. Insbesondere diskutieren wir verschiedene Verbesserungsstrategien, um musikalische Variationen wie Tempoänderungen und Transpositionen abzudecken. Durch Alinierungsmethoden ähnlich dem Dynamic Time Warping (DTW) führen wir ein neuartiges Fitnessmaß ein, welches jedem Segment einen sogenannten Eignungswert zuordnet. Jeder dieser Werte gibt an, wie gut und zu welchem Anteil das jeweilige Segment die Wiederholungsstruktur der kompletten Aufnahme erklärt. Dieses Maß dient als Ausgangspunkt für einige weitere Beiträge dieser Arbeit.

Zuerst beschäftigen wir uns mit einem Teilproblem der Musikstrukturanalyse namens Audio Thumbnailing, welches zum Ziel hat, das Audiosegment zu bestimmen, welches ein Musikstück am besten beschreibt. Wir zeigen, dass unser Fitnessmaß zur Bestimmung von sinnvollen Audio Thumbnails durch Betrachtung von Segmenten mit hoher Fitness geeignet ist. Anschließend präsentieren wir eine neue Scape-Plot-Darstellung, welche die Visualisierung von Wiederholungsstrukturen des gesamten Musikstückes auf eine hierarchische, kompakte und intuitive Weise ermöglicht. Diese Visualisierung zeigt nicht nur die Möglichkeiten und Grenzen unserer Methoden auf, sondern führt auch zu interessanten musikalischen Einblicken in die Daten. Als Anwendung in der Musikwissenschaft zeigen wir, wie unsere Techniken zur Analyse und Segmentierungen von Audioaufnahmen in der Sonatenhauptsatzform verwendet werden können. Hierzu wird unser wiederholungsbasierter Ansatz zur Ermittlung der Grobstruktur einer Sonate (Exposition, Durchführung, Reprise) angepasst und ein regelbasierter Ansatz zum Messen lokaler harmonischer Beziehungen eingeführt. Weiterhin diskutieren wir, wie die fitness-basierte Strukturanalyse erweitert werden kann, um allgemeinere musikalische Strukturen bestehend aus mehreren Gruppen wiederholter Segmente aufzufinden. Als einen weiteren technischen Beitrag zeigen wir, wie die Rechenzeit für unseren Strukturanalyse-Ansatz durch die hierarchische Betrachtung mehrerer Auflösungsstufen signifikant verringert werden kann.

DOI
Faculties & Collections
Zugehörige ORCIDs