next up previous contents index
Next: Danksagung Up: Automatische Analyse und Organisation Previous: Evaluierung   Contents   Index


Zusammenfassung und Ausblick

In dieser Arbeit wurde ein System zur automatischen Gruppierung von Musik vorgestellt. Ein Mediaplayer (XMMS) wurde verwendet, um aus Musikstücken Klangspektren zu extrahieren. Die extrahierten Klangspektren wurden zu fünfsekundigen Segmenten gruppiert. Einzelne Frequenzbänder wurden aus den Segmenten genommen und aus Werten eine Funktion interpoliert, die die Dynamik der Musik auf dem gewählten Frequenzband beschreibt. Die erzeugte Funktion wurde einer FFT unterzogen, um wiederum Frequenzspektren der interpolierten Funktion zu erhalten. Diese neuen Spektren bilden die Merkmale der Eingabevektoren des verwendeten Neuronalen Netzes. Die SOM, ein unüberwacht lernendes, Topologie erhaltendes Neuronales Netz, erzeugt eine Abbildung aus einem hochdimensionalen Eingaberaum einen zweidimensionalen nachbarschaftsbeziehungserhaltenden Ausgaberaum - die Karte. Die SOM wird dazu verwendet, Segmente verschiedener Musikstücke, deren klangliche Dynamik ähnlich ist, zu gruppieren. Ähnlich klingende Segmente werden in benachbarten Regionen der Karte gefunden, während anders klingende Segmente in weiter auseinanderliegenden Bereichen liegen. Die erhaltene Segmentkarte wird zur Erstellung einer Musikstückkarte herangezogen, auf der anstatt vieler Segmente von Musikstücken jedes Musikstück nur mehr genau einmal vorkommt. Die Vektoren zur Erstellung der Musikstückkarte werden durch die Lage der Segmente auf der Segmentkarte bestimmt. Auf der erhaltenen Musikstückkarte sind Musikstücke mit ähnlicher klanglicher Dynamik nebeneinander abgebildet, während gänzlich anders klingende Musikstücke weiter voneinander entfernt sind.

Trotz der Vielfalt der in den Experimenten verwendeten Musikstücke sind die erhaltenen Ergebnisse sehr beachtlich. Eine Sammlung aus sehr bekannter Musik konnte erfolgreich geclustert werden. Orchestermusik mit ihrer sehr eigenen Charakeristik erwies sich als besonders gut zu gruppieren. Es wurden Ähnlichkeiten zwischen Liedern aufgezeigt, die über offensichtliche Verwandtschaften hinaus gehen. Die SOM eröffnete ebenfalls Einblick in den Liedaufbau heutiger Pop-Stücke, sowie die starken Unterschiede zwischen Refrain und Strophen. Weiters wurde eine Sammlung von wenig bekannten Musikstücken untersucht, bei der die SOM trotz weniger markanter Merkmale Unterscheidungen vornahm. Lieder wurden nicht aufgrund ihres beim Vertreiber angegebenen "`Genres"', sondern aufgrund ihrer Dynamik erkannt. Dies führte zu teilweise divergierenden Angaben, die die Schwächen manueller Klassifizierungen herausstreicht.

Obwohl die Ergebnisse schon sehr gut sind, können weitere Adaptierungen vorgenommen werden um die erhaltenen Resultate noch zu verbessern. Eine mögliche Verbesserung läge darin mehr Daten zu betrachten. Wie schon des Öfteren erwähnt, verwendet das derzeitige Verfahren ungefähr 3 Prozent der von XMMS gelieferten Daten. Experimente mit kleineren Testmengen ergaben, dass die Clusterung besser wird, je mehr Daten verwendet werden. Je näher die Frequenzbereiche beieinander liegen, im besten Fall aufeinander folgen, desto ähnlichere Muster ergeben sich auf der SOM. Diese Verbesserungsmöglichkeit scheitert derzeit noch am Implementierungsaufwand. Eine andere Möglichkeit besteht darin, an Parametern, wie etwa der Länge der Segmente mit allen Datensätzen zu experimentieren.

Eine Verbesserungsmöglichkeit würde sich auch bei der Quelle (XMMS) befinden. Erst durch die Unzulänglichkeit von XMMS Signale zu exakten Zeitpunkten zu liefern, muss eine Funktion interpoliert werden. Durch direkten Zugriff auf das Audiosignal kann man exakt gezeitete Samples entnehmen. Eine Interpolation ist dann hinfällig. Durch diesen Schritt ist das Verfahren allerdings vom Dateiformat abhängig, was eine wenig erfreuliche Einschränkung ist. Durch die Vielzahl der heute existierenden Konvertierungsprogramme für Audiodateiformate kann man natürlich vor Beginn des Verfahrens alle Musikstücke auf das für das Verfahren gewählte Dateiformat (z.B. MP3) umwandeln. Um direkten Zugriff auf die Audioquelle zu bekommen kann man die MPEG maaate Bibliothek benutzen [#!maaate-faq.txt!#].

Eine weitere Möglichkeit zur Optimierung besteht darin, statt der FFT eine andere Transformation zu wählen, die eher den Gegebenheiten von Musiksignalen gerecht wird, z.B. Wavelets [#!iwmmdb.pdf!#]. Auch kann man in der Vorverarbeitung, wie viele andere auch (z.B. Feiten), psychoakustische Filter benutzen, wie sie Ellis entwickelt.

Eine rasche Vereinfachung wäre beispielsweise, die FFT Koeffizienten nach der Interpolation nicht direkt zur Vektorbildung heranzuziehen, sondern den Betrag der komplexen Zahlen zu bilden. Hierdurch verringert sich die Anzahl der betrachteten Merkmale um die Hälfte, und eine Nullpunktverschiebung ist nicht mehr erforderlich.

Auch kann man versuchen, an den fünfsekundigen Segmenten, statt jeden Frequenzbereich einzeln einer FFT zu unterziehen, eine zweidimensionale FFT durchzuführen, wodurch man die Frequenzbereiche nicht mehr unabhängig voneinander betrachten würde.

Ein gänzlich anderer Versuch wäre die Arbeit von Dixon und Goto - das Beat-Tracking System - mit diesem Ansatz zu verknüpfen. Eine Möglichkeit bestünde darin, das Tempo auf die Frequenzkurve aufzumodulieren oder die Form des Vektors durch ein zusätzliches Attribut oder ein alle Attribute beeinflussendes Verfahren zu ändern.

Eine andere Möglichkeit, die Dynamik in der Frequenz herauszufinden, wäre einfach, die Beträge der Koeffizienten einer FFT aufzusummieren und daraus Schlüsse zu ziehen. Anstatt wie hier zum Schluss die Koeffizienten der FFT zu untersuchen, könnte man auch die Differenz der aufeinander folgenden Spektren interpolieren und klassifizieren, um nur die Änderung losgelöst von ihrem Grundwert zu betrachten.

Abschließend kann man sagen, dass dieses Gebiet, das noch bis vor kurzem im Dornröschenschlaf lag, inzwischen von allgemeinem Interesse ist. Durch die Vielzahl von Audiosignalen und Musikstücken, die es heute vor allem durch immer billigere Hardware gibt, ist es natürlich essentiell, Verfahren zu finden, die ohne manuellen Eingriff inhaltsbasierte Gruppierungen vornehmen. Trotz der in dieser Arbeit präsentierten Ergebnisse ist es eher unwahrscheinlich, dass ein einzelner Ansatz, wie etwa hier die Dynamik der Spektren zu verfolgen, ein endgültiges Lösungssystem erbringt. Viel mehr die Verknüpfung aller Verfahren (Spektralanalyse, Ohrmodell, Dynamik der Spektren, Beat, Melodieanalyse) ist vermutlich der Schlüssel zur erfolgreichen Applikation.


next up previous contents index
Next: Danksagung Up: Automatische Analyse und Organisation Previous: Evaluierung   Contents   Index
Markus Fruehwirth
2001-03-30