Dissertation Rücker

Überblick über das PANS-Verfahren zur Tonhöhenanalyse


Wie im vorigen Kapitel ausführlich dargestellt wurde, existiert bisher kein Verfahren zur Tonhöhenanalyse, das die komplexen Phänomene im Zusammenhang mit der Tonhöhenwahrnehmung nichtstationärer Schallsignale korrekt wiedergibt. Im folgenden wird ein Verfahren zur Tonhöhenanalyse beschrieben, das zeitlich-spektrale Kontrasteffekte bei der Tonhöhenwahrnehmung berücksichtigt. Im Rahmen dieses Verfahrens werden vor allem peripher angesiedelte Effekte nachgebildet, da eine vollständige Modellierung aller auftretenden Phänomene einem vollständigen Modell der auditiven Wahrnehmung entspräche, was über das Ziel dieser Arbeit hinausgeht. Diejenigen Phänomene der Tonhöhenwahrnehmung, die auf komplexen Leistungen der oberen Hierarchiestufen beruhen (vgl. Abschnitt 1.2.2), werden also mit Ausnahme der Bildung der virtuellen Tonhöhe keine Berücksichtigung finden.

Das vorgestellte Verfahren erhält den Namen PANS - pitch analysis of nonstationary signals. Es wurde durch mehrere Programm-Module als diskretes System auf einem Computer implementiert. Abb. 3.1 zeigt schematisch den Aufbau des Verfahrens. Es besteht aus sechs Verarbeitungsstufen, die hierarchisch aufeinander aufbauen. Im folgenden werden die Funktionsblöcke und der Ablauf der Verarbeitung kurz erläutert, um einen Überblick über das Verfahren zu vermitteln. Im zugehörigen Text werden diejenigen Kapitel der Arbeit genannt, in denen der Entwurf, der Aufbau und die Funktion dann ausführlich erläutert werden.


Abb. 3.1: Überblick über das PANS-Verfahren zur Tonhöhenanalyse. Aufbau und Funktion der einzelnen Blöcke sind im Text beschrieben. Ein- und Ausgangsgrößen bzw. Ergebnisse der Verarbeitungsstufen sind kursiv bezeichnet.

Spektralanalyse

Zur Nachbildung der Frequenzselektivität bzw. der Frequenz-Orts-Transformation der Cochlea wird im Block Spektralanalyse eine Kurzzeit-Fourier-Transformation des abgetasteten Zeitsignals durchgeführt (Fourier-t-Transformation, FTT [125, 77]). Bandbreite und Analysefrequenzabstand werden proportional zur Frequenzunterschiedsschwelle für Sinustöne eingestellt (SPINC-Skalierung [130]). Der gewählte Parametersatz erlaubt für den vorliegenden Anwendungsfall eine optimale Anpassung an die Gehöreigenschaften unter besonderer Berücksichtigung der für die Tonhöhenwahrnehmung maßgeblichen Kriterien. Am Ausgang des Funktionsblocks Spektralanalyse liegt ein diskretes, zeitvariables Leistungsspektrum vor, das FTT-Spektrogramm. Die Auswahl, Implementierung und Parametrisierung des Verfahrens zur Spektralanalyse ist in Abschnitt 4.4 ausführlich beschrieben.

Inhibition

Im Zusammenhang mit der Wahrnehmung von Spektraltonhöhen können gewisse Wirkungen lateraler Inhibition psychoakustisch nachgewiesen werden. Diese äußern sich beispielsweise durch die Wahrnehmung von Tonhöhen bei spektral begrenztem Rauschen (vgl. Abschnitt 1.4). Dieser als spektrale Kantenüberhöhung interpretierbare Effekt wird im Funktionsblock Inhibition nachgebildet. Dazu wird das gehörrichtig kalibrierte FTT-Spektrogramm mit einem diskreten, SPINC-skalierten Kern in Frequenzrichtung gefaltet. Form und Größe dieses Faltungskerns orientieren sich an Daten psychoakustisch gemessener Suppression von Sinustönen. Das auf diese Weise berechnete Inhibitions-Spektrogramm unterscheidet sich vom FTT-Spektrogramm durch die Verstärkung spektraler Kontraste; Kanten in spektraler Richtung erscheinen überhöht. Im Inhibitions-Spektrogramm wird also auch die relative Ausgeprägtheit der Maxima der spektralen Hüllkurve gegenüber ihrer näheren Umgebung sichtbar. Die Berechnung und die Eigenschaften des Inhibitions-Spektrogramms werden in Kapitel 5 ausführlich erläutert.

Konturierung

In diesem Block findet der Übergang von einer quasikontinuierlichen Spektralrepräsentation zu einem frequenzdiskreten Satz von Spektralmerkmalen statt. Die Aufgabe des Funktionsblocks Konturierung besteht in der Extraktion der tonalen Signalkomponenten aus dem Inhibitions-Spektrogramm. Dazu werden zunächst nach dem Verfahren von Heinbach lokale spektrale Maxima im Inhibitions-Spektrogramm detektiert [47]. Diesen wird ein Frequenzkonturpunkt mit der Frequenz und dem Pegel des Maximums zugeordnet. Verfolgt man den Verlauf der Maxima über der Zeit, können durch Verwendung geeigneter Kriterien, wie etwa einem geringen Frequenz- und Pegelunterschied benachbarter Frequenzkonturpunkte, Frequenzkonturlinien ermittelt werden [76]. Tonale Komponenten werden durch diejenigen Linien repräsentiert, die eine gewisse Mindestdauer überschreiten. Diese werden als tonale Frequenzkonturen bezeichnet [77]. Eine ausführliche Dokumentation des Konturierungsverfahrens findet sich in den Abschnitten 7.1 und 7.2.

Zeitliche Akzentuierung

Zeitliche Kontraste im zeitvariablen Schallspektrum führen zur Akzentuierung, d.h. zur vorübergehenden Steigerung der wahrgenommenen Prominenz von Signalkomponenten (vgl. Abschnitt 1.5). Zur Berücksichtigung dieses Effekts werden parallel zur zuvor beschriebenen Konturierung des Inhibitions-Spektrogramms die transienten Signalkomponenten eines Schalls detektiert. Zu diesem Zweck wird im Funktionsblock Zeitliche Akzentuierung das Inhibitions-Spektrogramm zunächst mit einem nichtlinearen Tiefpaß in Zeitrichtung geglättet. Dabei bleiben steigende Flanken unverändert, fallende Flanken werden entsprechend dem zeitlichen Verlauf der Nachverdeckung des Gehörs geglättet. Ein anschließender Hochpaß entfernt stationäre Anteile. Auf diese Weise wird das sogenannte Kontrast-Spektrogramm berechnet. Den Spektralbereichen, in denen große zeitliche Kontraste auftreten, können so Kontrastmaße zugeordnet werden, die am zugehörigen Zeit-Frequenz-Ort des Kontrast-Spektrogramms ablesbar sind. Entwurf und Parametrisierung des Funktionsblocks werden in Kapitel 6 beschrieben.

Gewichtung der Spektraltonhöhen

Die tonalen Frequenzkonturen, die am Eingang des Funktionsblocks zur Verfügung stehen, sind die Kandidaten für Spektraltonhöhen. Ihnen wird nun ein zeitvariables Tonhöhengewicht zugeordnet, das ihre Prominenz beschreibt. Dabei gehen zunächst die spektrale Maskierung und die spektrale Gewichtung der Komponenten in die Berechnung ein. Zur Berücksichtigung der zeitlichen Akzentuierung werden aus dem Kontrast-Spektrogramm die Kontrastmaße am Ort der Frequenzkonturen entnommen und damit die Tonhöhengewichte berechnet. Als Ergebnis liegt das Spektraltonhöhen-Zeitmuster am Ausgang des Funktionsblocks vor, das den Verlauf und die zeitvariable Prominenz der Spektraltonhöhen eines Schalls beschreibt. Die Gewichtung der Spektraltonhöhen wird in Abschnitt 7.3 ausführlich erläutert.

Virtuelle Tonhöhe

Aus dem Spektraltonhöhen-Zeitmuster wird in diesem Funktionsblock nach der Theorie der virtuellen Tonhöhe das Zeitmuster der virtuellen Tonhöhen abgeleitet. Als Erweiterung des von Terhardt vorgeschlagenen Verfahrens für stationäre Schalle (vgl. Abschnitt 2.3.1) werden dabei zeitvariable Spektraltonhöhen innerhalb eines exponentiell abklingenden Bewertungsfensters berücksichtigt. Weitere Details zur Begründung und Implementierung des Algorithmus sind in Kapitel 8 beschrieben.

Anm. des Autors: Der folgende Abschnitt unterscheidet sich von der Druckfassung.


Visualisierung

Die Bilder der im Laufe der Verarbeitung erzeugten Spektrogramme und Konturmuster eignen sich besonders gut, um einen ersten Überblick über das Verfahren zu gewinnen. Da die Funktion aller Verarbeitungsstufen anhand desselben Schalls, nämlich des gesprochenen Wortes "Durst" illustriert wird, kann so der Funktionsablauf des Verfahrens visuell nachvollzogen werden. Die Übersicht zeigt, wo sich die entsprechenden Abbildungen in der Arbeit finden.


FTT-Spektrogramm (Abb. 4.1)

Inhibitions-
Spektrogramm
(Abb. 5.8)

Frequenzkonturen
(Abb. 7.3)

Tonale Frequenzkonturen
(Abb. 7.5)

Kontrast-
Spektrogramm
(Abb. 6.6)

Spektraltonhöhen-
Zeitmuster
(Abb. 7.7)

Zurück zur Dissertation Rücker