2016-09-06 3 views
1

Ich bin neu in der Sprachverarbeitung. Also bitte vergib mir meine Unwissenheit. Ich erhielt ein kurzes Sprachsignal (10 Sekunden) und wurde aufgefordert, die Tonhöhe manuell mit MATLAB oder Wavesufer zu kommentieren. Wie finde ich nun die Tonhöhe eines Sprachsignals? Gibt es eine theoretische Ressource, um das Problem zu lösen? Ich habe versucht, mit Wavesurfer die Tonhöhenkontur des Signals zu zeichnen. Ist es richtig?Manuelle Tonhöhenschätzung eines Sprachsignals

Edit 1: Meine Arbeit verwendet verschiedene Tonhöhenerkennung Algorithmen für unsere Daten und vergleichen Sie ihre Genauigkeiten. Die manuell annotierte Tonhöhe dient als Referenz.

AKTUALISIERUNG 1: Ich habe die GCIs (Glottal Closure Instants) durch Differenzieren des EGG (dEGG) -Signals erhalten, und die Peaks in dEGG sind GCIs. Zeitintervall zwischen zwei aufeinanderfolgenden GCIs ist die Tonhöhenperiode (n). Die Umkehrung der Tonhöhenperiode ist die Tonhöhe (hz).

UPDATE 2: SIGMA ist ein berühmter Algorithmus für die automatische GCI-Erkennung.

Danke an alle.

+0

http://www.seas.ucla.edu/spapl/paper/IS110135.pdf – Dschoni

+0

Es gibt viele Möglichkeiten, die Tonhöhe zu finden, aber die eigentliche Frage ist, was Sie mit "manuell kommentieren" - Die Tonhöhe der Rede verstehen existieren zwischen 50Hz und 500Hz - also das erste, was Sie tun möchten, ist Tiefpassfilter Ihre Rede, um einige der Oberschwingungen loszuwerden. Wenn Sie die Tonhöhe einfach manuell bestimmen möchten, empfehle ich eine Transformation wie ein STFT (Spektrogramm) oder Cochleargramm. – GameOfThrows

+0

@GameOfThrows Meine Arbeit verwendet verschiedene Algorithmen zur Tonhöhenerkennung für unsere Daten und vergleicht deren Genauigkeiten. Die manuell annotierte Tonhöhe dient als Referenz. – gokul

Antwort

1

Gewöhnlich wird die Grundwahrheit auf dem Signal mit EGG-Aufnahme erhalten. EGG ist ein Akronym für Electrogastrogram, es ist ein spezielles Gerät, das wahre Tonhöhe aufzeichnet.

Da ich bezweifle, dass Sie Zugriff auf ein solches Gerät haben, empfehle ich Ihnen, die vorhandene Datenbank für Pitch-Extraktion Auswertung sorgfältig für diese Aufgabe vorbereitet zu verwenden. Sie können es herunterladen here. Diese Daten wurden an der University of Edinburgh von Paul Bagshaw

gesammelt Ich schlage vor, Sie lesen auch seine Abschlussarbeit.

Wenn Sie mit dem Stand der Technik Algorithmus für die Tonhöhenextraktion vergleichen möchten, überprüfen Sie https://github.com/google/REAPER. Beachten Sie auch, dass die "wahre" Tonhöhe möglicherweise nicht die beste Funktion für nachfolgende Algorithmen ist. Manchmal können Sie Tonhöhe mit Fehlern extrahieren, aber bessere Genauigkeit zum Beispiel für die Spracherkennung erhalten. Überprüfen Sie für weitere Informationen this publication.

+0

Eigentlich habe ich das EGG-Signal für entsprechendes Signal bei mir. – gokul

+1

Dann können Sie einfach Pitch aus EGG mit REAPER extrahieren, das wäre die Grundwahrheit. Sie können diese Methodik unter http://tcts.fpms.ac.be/publications/papers/2013/icassp2013_obtdndatd.pdf Abschnitt 3 überprüfen.2 Ground Truth –

+0

Danke. Es war sehr hilfreich. – gokul