Ich bin neu in der Sprachverarbeitung. Also bitte vergib mir meine Unwissenheit. Ich erhielt ein kurzes Sprachsignal (10 Sekunden) und wurde aufgefordert, die Tonhöhe manuell mit MATLAB oder Wavesufer zu kommentieren. Wie finde ich nun die Tonhöhe eines Sprachsignals? Gibt es eine theoretische Ressource, um das Problem zu lösen? Ich habe versucht, mit Wavesurfer die Tonhöhenkontur des Signals zu zeichnen. Ist es richtig?Manuelle Tonhöhenschätzung eines Sprachsignals
Edit 1: Meine Arbeit verwendet verschiedene Tonhöhenerkennung Algorithmen für unsere Daten und vergleichen Sie ihre Genauigkeiten. Die manuell annotierte Tonhöhe dient als Referenz.
AKTUALISIERUNG 1: Ich habe die GCIs (Glottal Closure Instants) durch Differenzieren des EGG (dEGG) -Signals erhalten, und die Peaks in dEGG sind GCIs. Zeitintervall zwischen zwei aufeinanderfolgenden GCIs ist die Tonhöhenperiode (n). Die Umkehrung der Tonhöhenperiode ist die Tonhöhe (hz).
UPDATE 2: SIGMA ist ein berühmter Algorithmus für die automatische GCI-Erkennung.
Danke an alle.
http://www.seas.ucla.edu/spapl/paper/IS110135.pdf – Dschoni
Es gibt viele Möglichkeiten, die Tonhöhe zu finden, aber die eigentliche Frage ist, was Sie mit "manuell kommentieren" - Die Tonhöhe der Rede verstehen existieren zwischen 50Hz und 500Hz - also das erste, was Sie tun möchten, ist Tiefpassfilter Ihre Rede, um einige der Oberschwingungen loszuwerden. Wenn Sie die Tonhöhe einfach manuell bestimmen möchten, empfehle ich eine Transformation wie ein STFT (Spektrogramm) oder Cochleargramm. – GameOfThrows
@GameOfThrows Meine Arbeit verwendet verschiedene Algorithmen zur Tonhöhenerkennung für unsere Daten und vergleicht deren Genauigkeiten. Die manuell annotierte Tonhöhe dient als Referenz. – gokul