2017-01-03 2 views
5

Ich lerne neuronale Netzwerke und versuche, Lautsprecher-Erkennungssystem mit Tensorflow zu erstellen. Ich wollte wissen, wie die Länge der Äußerung das neuronale Netzwerk beeinflusst. Zum Beispiel habe ich 1000 verschiedene Tonaufnahmen mit den gleichen Längen und 1000 verschiedenen Tonaufnahmen mit unterschiedlichen Längen. Also, wie theoretisch funktioniert neuronales Netzwerk mit dieser Art von Daten? Wird neuronales Netzwerk mit Datenbank von gleichlangen Aufzeichnungen besser oder schlechter? Warum?Wie die Äußerungslänge das neuronale Netzwerk bei der Sprechererkennung beeinflusst?

Antwort

1

Es hängt von der Art des neuronalen Netzes ab. Wenn Sie so ein Design erstellen, geben Sie normalerweise die Anzahl der Eingabe-Neuronen an, sou kann sie nicht mit Daten beliebiger Länge versorgen. Bei längeren Sequenzen müssen Sie entweder Ihre Daten zuschneiden oder ein Schiebefenster verwenden.

Jedoch erlauben einige neurale Netze Ihnen, willkürliche Folge von Eingaben zu verarbeiten, wie z.B. Recurrent Neural Network. Letzteres scheint ein sehr guter Kandidat für Ihr Problem zu sein. Here ist ein guter Artikel, der die Implementierung von bestimmten RNN-Typen beschreibt, die Long Short-Term Memory genannt werden, die gut mit der Spracherkennung funktionieren.

1

Ich nehme an, dass Ihre Frage wie neu formuliert werden kann Wie ein neuronales Netzwerk Audio unterschiedlicher Länge verarbeiten kann?

Der Trick ist, dass das Signal einer beliebigen Größe in eine Sequenz von Merkmalsvektoren fester Größe umgewandelt wird. Siehe meine Antworten here und here.

Verwandte Themen