Wie viele Trainingsdaten werden für ein sprecherabhängiges Spracherkennungssystem benötigt?

Um ein hochpräzises (< 15% WER) sprecherabhängiges ASR-System zu implementieren, wie viele Trainingsdaten benötigt der Lautsprecher?Wie viele Trainingsdaten werden für ein sprecherabhängiges Spracherkennungssystem benötigt?

Auch sind sprecherabhängige Modelle in der Regel mit einem größeren Korpus von Audio ergänzt (von vielen Rednern)? Oder verwenden sie nur Daten des einzelnen Redners?

Quelle

2017-04-02 jdmcpeek

Um ein hochpräzises (< 15% WER) sprecherabhängiges ASR-System zu implementieren, wie viele Trainingsdaten benötigt der Lautsprecher?

30-40 Stunden.

Werden auch sprecherabhängige Modelle normalerweise mit einem größeren Korpus von Audio (von vielen Lautsprechern) ergänzt?

Manchmal.

Oder verwenden sie nur Daten von einem einzelnen Lautsprecher?

Es ist möglich, sprecherabhängigen Lautsprecher von 1-2 Stunden von Lautsprecherdaten und 300+ Stunden von Daten von anderen Sprechern aufzubauen. Es ist weniger geradliniger Weg, als einzelne Sprecherdaten zu sammeln.

Quelle

2017-04-03 07:04:36

Wenn es 30-40 Stunden dauert, um ein sprecherabhängiges System zu trainieren, wie benötigen dann einige Apps nur ein paar Beispielabsätze für das Training? – jdmcpeek

Mit wenigen Absätzen passen sie das generische System an den Benutzer an, sie verbessern nur geringfügig die Genauigkeit, ziemlich weit vom sprecherabhängigen System entfernt. –

Die Antwort hängt davon ab, welche Bibliothek Sie verwenden. Für eingebettete Sprachsteuerungssysteme habe ich das TrulyHandsFree SDK von Sensory mit einem sprecherspezifischen Training verwendet. Ihr Prozess passt das Erkennungsnetzwerk an, beginnend mit einem sprecherunabhängigen Modell und baut darauf auf. Um eine ziemlich genaue Sprecheridentifikation durchzuführen, werden zwischen 512 und 1024 sprecherspezifische Trainingsbeispiele benötigt, also zwischen 45 Minuten und 3 Stunden Daten.

Aber wenn Sie nicht Sprecheridentifikation müssen die Standardmodelle sind mehr als 85% genau eine kleine Grammatik Größe ohne Lautsprecher spezifische Ausbildung vorausgesetzt. Die gesamte Arbeit, die ich gemacht habe, verwendet relativ kleine Grammatiken, deshalb ist die Sprecheridentifikation der einzige Grund, warum wir ein sprecherspezifisches Training machen.

Wenn Sie irgendeine Art von unbeschränktem ASR benötigen, dann ist das außerhalb meines Tätigkeitsbereiches.

Quelle

2017-07-19 16:10:13

Wie viele Trainingsdaten werden für ein sprecherabhängiges Spracherkennungssystem benötigt?

Antwort

Verwandte Themen