2017-04-02 2 views

Antwort

0

Um ein hochpräzises (< 15% WER) sprecherabhängiges ASR-System zu implementieren, wie viele Trainingsdaten benötigt der Lautsprecher?

30-40 Stunden.

Werden auch sprecherabhängige Modelle normalerweise mit einem größeren Korpus von Audio (von vielen Lautsprechern) ergänzt?

Manchmal.

Oder verwenden sie nur Daten von einem einzelnen Lautsprecher?

Es ist möglich, sprecherabhängigen Lautsprecher von 1-2 Stunden von Lautsprecherdaten und 300+ Stunden von Daten von anderen Sprechern aufzubauen. Es ist weniger geradliniger Weg, als einzelne Sprecherdaten zu sammeln.

+0

Wenn es 30-40 Stunden dauert, um ein sprecherabhängiges System zu trainieren, wie benötigen dann einige Apps nur ein paar Beispielabsätze für das Training? – jdmcpeek

+0

Mit wenigen Absätzen passen sie das generische System an den Benutzer an, sie verbessern nur geringfügig die Genauigkeit, ziemlich weit vom sprecherabhängigen System entfernt. –

0

Die Antwort hängt davon ab, welche Bibliothek Sie verwenden. Für eingebettete Sprachsteuerungssysteme habe ich das TrulyHandsFree SDK von Sensory mit einem sprecherspezifischen Training verwendet. Ihr Prozess passt das Erkennungsnetzwerk an, beginnend mit einem sprecherunabhängigen Modell und baut darauf auf. Um eine ziemlich genaue Sprecheridentifikation durchzuführen, werden zwischen 512 und 1024 sprecherspezifische Trainingsbeispiele benötigt, also zwischen 45 Minuten und 3 Stunden Daten.

Aber wenn Sie nicht Sprecheridentifikation müssen die Standardmodelle sind mehr als 85% genau eine kleine Grammatik Größe ohne Lautsprecher spezifische Ausbildung vorausgesetzt. Die gesamte Arbeit, die ich gemacht habe, verwendet relativ kleine Grammatiken, deshalb ist die Sprecheridentifikation der einzige Grund, warum wir ein sprecherspezifisches Training machen.

Wenn Sie irgendeine Art von unbeschränktem ASR benötigen, dann ist das außerhalb meines Tätigkeitsbereiches.

Verwandte Themen