Bei gegebener Linearität des Transformationsprozesses der Schalldruckschwankungen vor dem Trommelfell in die Nervenimpulsverteilung auf den Nervenbahnen, darf man davon ausgehen, dass die Phänomene, die bei einfachen Sinustönen gelten auch für lineare Überlagerungen derselben,also bei Klängen, speziell Vokalen gelten. Aus den psychoakustischen Ergebnissen lassen sich Aussagen zur Perzeption also in einer Art Fouriersynthese ableiten.
FLANAGAN führte ab 1955 Untersuchungen mit stationären synthetischen Vokalen durch. Er erhielt gerade wahrnehmbare Unterschiede bei Vokalformanten von 3 - 5% der Formantfrequenz, von 20 - 40% der Formantbreite, von 1 - 3 dB der Formantamplitude und von 10 dB bei der Senke zwischen zwei Formanten. Für den Grundton ergaben sich Werte von 0,3 - 0,5%.
Bei natürlich gesprochenen Äußerungen liegt dieser Wert mit 5 - 16 Hz (HARRIS & UMEDA 1987) um ein Vielfaches oberhalb von FLANAGANS Werten.
LEHISTE (1976) fand gerade wahrnehmbare Lautdauerunterschiede in einer Größenordnung zwischen 10 und 40 ms. Dabei steigt die Schwelle bei sinkender Signalintensität an.
Die Tonhöhe (engl. pitch) ist eine auditive Empfindung bei der Wahrnehmung von Signalen, die auf einer musikalischen Skala angeordnet werden kann. Im Hinblick auf das Oszillogramm eines Signals entspricht dies der Wiederholungsrate der Schwingungsform des Signals. Bei einem Ton ist diese Wiederholungsrate die Frequenz, bei einem Klang (z.B. Vokal) ist die Rate gleich der Frequenz des Grundtones bzw. der 1. Harmonischen.
Fehlt der Grundton ändert sich nur die Klangqualität, nicht aber die Tonhöhe. Dies
wird durch die Telefonsprache deutlich. Hier fehlt bei der Übertragung der Grundton, da nur
ein Frequenzbereich von ca. 300 Hz bis 3200 hz übertragen wird. Dennoch kann man hören,
ob ein Sprecher eine "tiefe" oder "hohe" Stimme hat, d.h. es existiert eine
Grundtonempfindung.
Obwohl die Stelle auf der Basilarmembran, die der charakteristischen Frequenz des
zugehörigen Sinustones entspricht, gar nicht gereizt wird, kommt doch die gleiche
Tonhöhenempfindung zustande wie bei einem reinen Ton.
Durch Auswertung des Abstandes der Spektrallinien der Obertöne, scheint das Gehör in der Lage zu sein die sogenannte Residualtonhöhe zu bestimmen.
Welche Komponente eines Klanges für die Tonhöhenempfindung bestimmend sind, scheint frequenzabhängig zu sein. So ist für Frequenzen oberhalb von ca. 1000 Hz der Grundton des Klanges, bei tiefen Frequenzen (ca. 50 Hz) die Obertöne oberhalb des 4. Obertons und bei Sprachlauten mit Grundtönen im Bereich von 100 Hz - 300 Hz die Obertöne im Bereich des ersten Formanten für die Tonhöhenwahrnehmung entscheidend.
Die lineare Frequenzrepräsentation des Sprachsignals stellt nicht die spektrale Repräsentation auf der Basilarmembran oder auf den auditiven Nerven dar. Eine realistische Darstellung erhält man durch die Umskallierung der Frequenzachse. Soll das Spektrum aber die auditiven Filter simulieren, dann bietet sich die ERB-Skalierung an.
Bei der ERB-Skalierung hängt die Gestalt des Spektrums von der Signalintensität ab, da sich die zugrundeliegenden Filter bei steigender Intensität verbreitern. Damit ändern sich im tieffrequenten Bereich auch die Maxima.
© 2005 Reinhold Greisbach (Institut für Phonetik)
JWG-Universität Frankfurt am Main
Erstellt von Benjamin Kratz, Janina Schwital, Maren Stahlberg und Kerstin Stock im Rahmen
des Seminars Grundlagen der Phonetik II im SS 04
am Institut für Phonetik der JWG-Universität Frankfurt am Main