Abbildung zeigt einen Überblick über das Forschungsfeld Audioverarbeitung mit Schwerpunkt auf Musik verarbeitenden Systemen. Die Grafik enthält Forschungsgebiete und deren Themenverwandtschaften (schwarz), sowie Forscher (grau), die an den jeweiligen Gebieten arbeiten. Verfahrensverwandtschaften sind durch graue Linien markiert. Die Markierung "`diese Arbeit"' (grau, Mitte) sortiert das hier gebrachte Verfahren zwischen den derzeit bekannten Ansätzen ein.
Bis zum heutigen Tag existiert eine Vielzahl von Ansätzen zur inhaltsbasierten Musikklassifikation, doch kann man fast alle der Frequenzanalyse basierend auf Wold [#!wold!#] oder der Melodieanalyse rund um Ghias [#!humming!#] zurechnen.
Allgemein kann man Audiosignale in vier Gruppen einteilen: Stille, Stimme, Geräusche und Musik. Die größten Fortschritte bei der Audiosignalverarbeitung wurden bisher auf dem Gebiet der Stimmenverarbeitung erzielt. Das Gebiet der Sprecher- und Spracherkennung (engl: ASR)wird bereits von industriellen Applikationen abgedeckt (z.B. IBM ViaVoice). Für dieses Forschungsfeld ist es wichtig Stimme und andere Audiosignale zu trennen [#!Brown-Wang.ijcnn99.pdf!#,#!dpwe-asa92slc.pdf!#]. Nach dieser Trennung kann man das übrig bleibende Geräusch (z.B. Applaus) durch Frequenzanalyse klassifizieren, um beispielsweise Pausen zwischen zwei Rednern zu finden. Jedes Audiosignal, das der Mensch wahrnimmt, wird durch das Ohr aufgefangen. Ein Hauptaugenmerk der Forschung gilt daher der Nachbildung des hörverarbeitenden Systems des Menschen. Ellis beschäftigt sich in seinen Arbeiten mit dem Entwurf solcher mathematischer Funktionen [#!dpwe-ijcai95.pdf!#].
Wold et al. gehörten zu den ersten, die Audiosignale inhaltsbasiert analysierten [#!wold!#]. Ihre Arbeit konzentriert sich darauf, Merkmale wie Lautstärke, Tonhöhe, Bandbreite und Klangfarbe aus den Rohdaten zu extrahieren. Aus diesen Größen wird ein Vektor generiert, der zur Ähnlichkeitssuche benutzt wird. Die von den Autoren gegründete Firma Muscle Fish [#!musclefish!#] hat eine Applikation entwickelt, die ausgehend von dieser Arbeit in der Lage ist, Geräusche zu erkennen (z.B. Applaus, Gelächter, ...). Diese Einteilung wird erzielt, indem die zu messenden, vorher beschriebenen Vektoren, mit Vektoren in einer Referenzdatenbank verglichen werden.
Auch Foote [#!foote.pdf!#] verwendet einen ähnlichen Ansatz. Hier werden nicht systemunabhängige Referenzvektoren (z.B. Applaus) verwendet, sondern spezielle Referenzvektoren vor dem eigentlichen Vergleich erstellt (z.B. männlicher Redner). Einen recht guten Überblick über dieses Forschungsfeld, ebenfalls von Foote, findet man in [#!acm98.pdf!#]. Im Rahmen des MoCA Projekts [#!Pfeiffer1998a.pdf!#] konstruierten Pfeiffer et al. ein System [#!Pfeiffer1996a.pdf!#] zur automatischen Erkennung von Gewaltszenen im Fernsehen bzw. allgemeiner zur Extraktion von Informationen aus Videos. Auch dieses System vergleicht die Extrakte mit einer Datenbank und erinnert somit an den Ansatz von Wold [#!wold!#]. Zhang [#!reboston.pdf!#] setzt auf demselben Ansatz auf. Nach Teilung der Audiodatei in Stimme, Stille, Musik und Geräusche erfolgt eine Feinsegmentierung, basierend auf Merkmalsextraktionen, die dann mit vorher festgelegten Vektoren (z.B. Applaus, Schrei, ...) verglichen werden. Die Vektoren werden hier durch so genannte Grundfrequenzen, die jede Quelle inne hat, gebildet. Die Grundfrequenz einer männlicher Stimme liegt etwa bei 120 Hz. All diese Arbeiten erzielen durchwegs sehr gute Ergebnisse.
Auch Ansätze zur Instrumentenerkennung [#!ASterian.SPIE98.pdf!#] basieren auf Frequenzanalysen. Hier wird ein spezieller Filter angewandt, um Frequenzbereiche stärker zu gewichten. Cosi et al. [#!cp-JNMR93.pdf!#] benutzen in ihrer Arbeit ein Neuronales Netz um die Klangfarbe von Instrumenten zu klassifizieren. Um die Datenrate niedrig zu halten senkte man die SR (siehe Kapitel ) der Stücke um ein Vielfaches (teilweise nur 4000 Hz). Bei diesen Experimenten wurden aber nur Instrumente getrennt, und die Datensammlung enthielt nur getrennte Aufnahmen von Instrumenten. Feiten benutzte bereits eine SOM um Musik zu klassifizieren [#!feiten!#]. Er konzentrierte sich hauptsächlich auf die Klangfarbe und vernachlässigte alles andere, was ausgehend von den damals zur Verfügung stehenden Hardware Ressourcen der einzig gangbare Weg war. Genau wie bei dieser Arbeit steht am Anfang eine Auswahl von Samples (siehe Kapitel ) und eine darauf folgende Transformation von dem Zeitbereich in die Frequenzebene. Danach benutzt Feiten eine mathematische Darstellung des Ohrs um das Signal anzupassen und generiert daraus den Eingabevektor für die SOM. Da Feiten aber nur einzelne Töne analysiert, fehlt die Melodiekomponente völlig.
An Ansätzen, die die Melodie berücksichtigen, arbeiten Dixon [#!pricai2000!#] und Goto [#!goto.pdf!#]. Dixon's Arbeit, die auf der Goto's beruht, konzentriert sich hauptsächlich auf die Konstruktion und Implementierung eines "`Beat-Tracking"' Systems. Durch lokale Maximasuche wird versucht, regelmäßige rhythmische Elemente zu identifizieren und dann aus den gewonnenen Daten auf das Tempo zu schließen. Als "`Beat"' bezeichnet Dixon das Tappen des Rhythmus, beispielsweise mit dem Fuß. Was für jedes Kind ein Leichtes ist, ist für den Computer eine wenig triviale Angelegenheit. Auf das Tempo wird geschlossen, indem man die Beats pro Minute zählt.
Andere melodiebasierte Ansätze setzen bei der Melodieanalyse auf ein spezielles Dateiformat (MIDI) [#!MIDI!#]. Dieses Dateiformat repräsentiert eine Notenpartitur und ist daher nicht ein binärer Datenstrom (siehe Kapitel ). Die Forschung hat hier bereits Dank des viel einfacher verarbeitbaren Formats große Fortschritte erzielt. Gjerdingen benutzt ein Neuronales Netz um Noten zu analysieren [#!Gjerdingen!#]. Tseng konstruierte eine Applikation, die Themen in Musik findet [#!sigir99_p176-tseng.pdf!#]. Bei diesem System kann man eine Suchanfrage in Noten stellen. Eine Stufe weiter geht McNab, der einen Prototyp beschreibt, der eine gesungene Suchanfrage versteht [#!p11-mcnab.pdf!#]. Eine umfassendere Beschreibung dieses Systems ist in [#!p161-bainbridge.pdf!#] zu finden. Hauptprobleme der erwähnten Lösungen sind Tonhöhe und eine unscharfe, verfälschte Suchanfrage durch den Benutzer. Eine sehr verständliche Einführung in dieses Forschungsfeld ist neben den bisher erwähnten Quellen [#!p235-uitdenbogerd.pdf!#]. Alle MIDI basierten Ideen setzen meist die Theorie von Ghias et al. ein [#!humming!#]. Ghias formt eine vorgesummte Anfrage in drei Strings um, wobei diese drei Zeichen eine höhere, niedrigere oder gleich hohe Note als die vorhergehende repräsentiert. Das Problem der Melodiesuche wird dadurch in eine einfache Stringsuche umgewandelt und kann mit genau diesen Algorithmen bestens gelöst werden [#!sigir99_p297-downie.pdf!#]. In [#!00710014.pdf!#] findet man eine Zusammenfassung von Liu, Chen und Hsu's Verbesserungen dieses Weges, und in [#!p63-de_roure.pdf!#] noch eine weitere Applikation.
All die gebrachten Ansätze enden jedoch entweder auf der einen (Frequenz) oder anderen (Zeit) vorgegebenen Achse und versuchen nicht diese beiden Ebenen zu verknüpfen. Diese Arbeit stellt eine Möglichkeit dar, sowohl Zeit- als auch Frequenzachsen zu berücksichtigen. Die genaue Verfahrensbeschreibung ist Gegenstand von Kapitel .