Dissertation Rücker

Zusammenfassung


In der vorliegenden Arbeit wird ein Verfahren zur Tonhöhenanalyse nichtstationärer Schallsignale vorgestellt. Es zeichnet sich durch die Berücksichtigung derjenigen wesentlichen Gehöreigenschaften aus, die im Zusammenhang mit der Tonhöhenwahrnehmung beobachtet werden können. Neben den elementaren Eigenschaften der Frequenzanalyse des Gehörs gehören dazu insbesondere zeitlich-spektrale Kontrasteffekte. Diese beeinflussen die wahrgenommene Prominenz von Tonhöhen in erheblichem Maße, wurden aber von bisherigen Verfahren zur Tonhöhenanalyse nicht erfaßt. Das vorgestellte Verfahren ist in der Lage, sowohl die Tonhöhen, als auch den Zeitverlauf ihrer Prominenz bei zeitvarianten Schallsignalen nachzubilden.

Ausgehend von einem hierarchischen Modell der Signalverarbeitung des Gehörs wird zunächst eine systematische Darstellung der Phänomene gegeben, die im Zusammenhang mit der Tonhöhenwahrnehmung zu beobachten sind (Kapitel 1). Einerseits wird dabei deutlich, daß die komplexen Effekte nur durch das Zusammenwirken der beteiligten Hierarchiestufen der Wahrnehmung erklärt werden können. Andererseits wird aufgezeigt, daß das periphere Gehör zeitlich-spektrale Kontraste im Schallspektrum auswertet. Diese können zu einer vorübergehenden Erhöhung der perzeptiven Prominenz von Signalkomponenten führen, die als Akzentuierung bezeichnet wird.

Bekannte modellhafte Vorstellungen der Tonhöhenanalyse des Gehörs, die Kapitel 2 schematisch erläutert, tragen dem beschriebenen Sachverhalt kaum Rechnung. Insbesondere werden die Berechnungsverfahren, die aus den Modellen abgeleitet werden, meist nur anhand stationärer Schalle verifiziert. Deshalb wird ein neues Verfahren zur Tonhöhenanalyse vorgestellt, das die oben erwähnten zeitlich-spektralen Kontrasteffekte berücksichtigt. Kapitel 3 vermittelt einen Überblick über seinen Aufbau und seine Funktionsweise.

Grundlage des Verfahrens ist die Nachbildung der wesentlichen Eigenschaften der Spektralanalyse durch das Gehör. Der Vergleich zwischen verschiedenen Methoden zur Spektralanalyse in Kapitel 4 ergibt, daß nur eine Kurzzeit-Fouriertransformation mit variabler Fensterfunktion oder eine gehörangepaßte Filterbank für die Tonhöhenanalyse zeitvarianter Schallsignale geeignet ist. Die Fourier-t-Transformation (FTT), die in dieser Arbeit verwendet wird, stammt von der zuerst genannten Gattung ab. Durch die Wahl einer geeigneten Fensterfunktion wird sie an die Gehöreigenschaften angepaßt. Die frequenzabhängige Analysebandbreite wird dazu proportional zur Frequenzunterschiedsschwelle von Sinustönen eingestellt, da diese für die Tonhöhenanalyse von elementarer Bedeutung ist. Das Ergebnis der Spektralanalyse ist eine zeitvariante Spektraldarstellung, die auf die Anforderungen der Tonhöhenanalyse zugeschnitten ist. Sie wird als FTT-Spektrogramm bezeichnet.

Zur Berücksichtigung zeitlich-spektraler Kontrasteffekte werden zwei neue zeitvariante Spektralrepräsentationen vorgestellt:

  • Das Inhibitions-Spektrogramm (Kapitel 5) bildet spektrale Kontrasteffekte nach, die beispielsweise im Zusammenhang mit den Tonhöhen bandbegrenzter Schallsignale beobachtet werden können. Es entsteht durch Faltung des FTT-Spektrogramms mit einem speziellen Faltungskern in Frequenzrichtung. Dieser wird nach psychoakustischen Kriterien entworfen und so dimensioniert, daß zeitliche Kontraste im Inhibitions-Spektrogramm nicht beeinträchtigt werden. Die Untersuchung der Eigenschaften des Inhibitions-Spektrogramms ergibt, daß sich dieses für eine Konturierung eignet, die sich auf die Detektion lokaler Pegelmaxima über der Frequenz stützt.

  • Das Kontrast-Spektrogramm (Kapitel 6) modelliert die zeitliche Kontrastierung von Spektralmerkmalen im Gehör. Es wird aus dem Inhibitions-Spektrogramm gewonnen, indem es zunächst kanalweise einer nichtlinearen Tiefpaßfilterung unterzogen wird, die sich an der zeitlichen Verdeckung des Gehörs orientiert. Danach werden durch eine Hochpaßfilterung der Kanäle die stationären Anteile entfernt. Der verbleibende Rest bildet das Kontrast-Spektrogramm. Die Untersuchung seiner Eigenschaften ergibt, daß aus ihm das Ausmaß der zeitlichen Kontrastierung im Gehör an einem bestimmten Zeit-Frequenz-Ort abgelesen werden kann. Da das Kontrast-Spektrogramm aus dem Inhibitions-Spektrogramm berechnet wird, spielt dabei die spektrale Zusammensetzung des Schalls wie im Gehör eine wesentliche Rolle.

In Kapitel 7 wird die Extraktion der tonalen Komponenten des Schallsignals und ihre Gewichtung behandelt. Die dabei vorgenommene Frequenzkonturierung des Inhibitions-Spektrogramms greift auf ein bekanntes Verfahren zurück, dessen Eignung für die vorliegende Anwendung überprüft wird.

Zur Bestimmung der Spektraltonhöhen werden die tonalen Komponenten unter Berücksichtigung der Kontrastmaße gewichtet, die am Ort der tonalen Frequenzkonturen aus dem Kontrast-Spektrogramm abgelesen werden. Gleichzeitig wird die spektrale Maskierung abgeschätzt und eine frequenzabhängige Bewertung durchgeführt, die die Bevorzugung des mittleren Frequenzbereichs bei der Tonhöhenwahrnehmung nachbildet. Das Ergebnis der Gewichtung der tonalen Komponenten ist das Spektraltonhöhen-Zeitmuster, das den Verlauf und die zeitvariable Prominenz derjenigen Tonhöhen angibt, die direkt mit den Frequenzen der tonalen Signalkomponenten korrespondieren.

Kapitel 8 beschreibt, wie die virtuellen Tonhöhen aus dem Spektraltonhöhen-Zeitmuster berechnet werden. Auf der Basis der Theorie der virtuellen Tonhöhe werden durch subharmonische Koinzidenzdetektion Kandidaten für virtuelle Tonhöhen ermittelt. Ein bekannter Algorithmus wurde dergestalt modifiziert, daß die Zeitvariabilität der Spektraltonhöhen und ihrer Gewichte mit in die Berechnung eingehen.

Die Erprobung des vollständigen Verfahrens zur Tonhöhenanalyse in Kapitel 9 erfolgt durch den Vergleich von Simulationsrechnungen mit den Ergebnissen psychoakustischer Experimente anderer Autoren. Dabei zeigt sich, daß alle elementaren Eigenschaften der Tonhöhenwahrnehmung des Gehörs nachgebildet werden können. Dazu gehören beispielsweise die Frequenzunterschiedsschwelle von Sinustönen, die Haupttonhöhe von komplexen Tönen und die Dominanz des mittleren Frequenzbereichs bei der Bildung der virtuellen Tonhöhe. Wesentliche Verbesserungen zu bisher bekannten Verfahren ergeben sich bei der Nachbildung der Tonhöhen an spektralen Kanten von bandbegrenztem Rauschen oder im Bereich von Vokalformanten. Auch die Nachbildung von Tonhöhen, die durch zeitliche Kontrastierung von Spektralmerkmalen zustande kommen, wird bisher von keinem anderen bekannten Verfahren geleistet. Das trifft auch auf das Phänomen der Wahrnehmung der virtuellen Tonhöhe bei nichtsimultaner Darbietung von Harmonischen zu. Diese wird durch die integrative Berechnung aus dem Spektraltonhöhen-Zeitmuster ebenfalls vorhergesagt.


Zurück zur Dissertation Rücker