2016-04-15 2 views
1

Ich versuche, ein Speech to Text-System für eine für eine bestimmte Domäne spezifische Muttersprache zu erstellen. Obwohl Sie CMUSphinx für diesen Zweck verwenden. Für eine ungewöhnliche Sprache, wie ich sie verstehe zuerst müssen Sie das Laut Wörterbuch bauen, die die englische Transkription für die mögliche Menge von Wörtern enthält:Erstellen eines phonetischen Wörterbuchs mit CMUSphinx für ein Speech to Text-System

uniocode word -> english transliteration 

ex .:

xxxx -> ah ty re see 

Meine Frage ist, Müssen wir diese Transliteration manuell erstellen? Kam über Freetts, die gut für Englisch zu funktionieren scheint. Wie kann ich das Gleiche für eine neue Sprache tun?

Antwort

0

Mögliche Möglichkeiten, um ein Wörterbuch zu bauen in CMUSphinx Tutorial:

http://cmusphinx.sourceforge.net/wiki/tutorialdict

Es gibt verschiedene Tools, damit Sie ein vorhandenes Wörterbuch für neue Wörter erweitern oder ein neues Wörterbuch von Grund auf neu zu bauen. Wenn Ihre Sprache bereits über ein Wörterbuch verfügt, sollten Sie es verwenden, da es sorgfältig auf die beste Leistung abgestimmt ist. Wenn Sie eine neue Sprache beginnen, müssen Sie verschiedene Reduzierungen und Koartikulationseffekte berücksichtigen. Sie machen es sehr schwer, genaue Regeln zu erstellen, um Text in Sounds zu konvertieren. Die Praxis zeigt jedoch, dass selbst eine naive Konvertierung gute Ergebnisse für die Spracherkennung liefern könnte. Zum Beispiel war es vielen Entwicklern gelungen, ASR mit einer einfachen Graphem-basierten Synthese zu erstellen, bei der jeder Buchstabe nur auf sich selbst und nicht auf das entsprechende Telefon abgebildet wird.

Für die meisten Sprachen müssen Sie spezielle Grapheme zu Phonem (g2p) Code verwenden, um die Konvertierung mit maschinellen Lernmethoden und bestehenden kleinen Datenbank zu tun. Heute sind die genauesten g2p-Tools Phonetisaurus und sequitur-g2p.

Beachten Sie auch, dass fast jedes TTS-Paket G2P-Code enthalten hat. Zum Beispiel können Sie den g2p-Code von FreeTTS, OpenMary oder espeak verwenden.

Bitte beachten Sie, dass Sie bei Verwendung von TTS häufig eine Telefonkonvertierung durchführen müssen. TTS-Telefonsätze sind normalerweise umfangreicher als für ASR erforderlich. Es gibt jedoch einen großen Vorteil in TTS-Tools, da sie in der Regel mehr erforderliche Funktionalität als einfache G2P enthalten. Zum Beispiel tun sie Tokenization, indem sie Zahlen und Abkürzungen in gesprochenes Format umwandeln.

+0

Noch nicht ganz klar, wie ich die Wörterbuchdatei erzeugen soll. Benötige ich zuerst eine Unicode-Datei mit englischen Transliterationen, die in den g2p-Tools verwendet werden soll? Vielen Dank. – Izza

+0

"Unicode zu Englisch" ist sinnlos. Für ein G2P-Tool wie Phonetik benötigen Sie ein Anfangswörterbuch, in dem die Phonemsequenzen für einige Wörter aufgelistet sind. Sie können ein solches Wörterbuch manuell in einem Texteditor erstellen. Sie können 100 Wörter manuell auflisten und dann den Phonetisaurus trainieren, um den Rest zu verlängern. –

Verwandte Themen