2013-05-06 3 views
10

Wo finde ich Dokumentation zum ARPA-Sprachmodellformat?Dokumentation zum ARPA-Sprachmodell

Ich entwickle einfache Spracherkennung App mit Pocket-Sphinx STT-Engine. ARPA wird aus Leistungsgründen empfohlen. Ich möchte verstehen, wie viel ich tun kann, um mein Sprachmodell an meine individuellen Bedürfnisse anzupassen.

Alles ist fand ich einige sehr kurze ARPA Formatbeschreibungen:

Ich bin Anfänger bis STT und ich habe Mühe Kopf zu wickeln diese um (N-Gramm usw.). Ich suche nach ausführlicheren Dokumenten. So etwas wie Dokumentation über JSGF Grammatik hier:

http://www.w3.org/TR/jsgf/

+0

werfen Sie einen Blick auf diese msdn Link .. Arpa und Args-Format sind gut erklärt [Kompilieren Grammatik-Eingabe- und Ausgabedateiformat] (https://msdn.microsoft.com/en-us/library/office/hh378460 (v = office.14) .aspx) –

Antwort

3

Es gibt eigentlich nicht viel mehr über das Format zu sagen, als in jener docs gesagt ..

Außerdem werden Sie wahrscheinlich wollen eine vorbereiten Textdatei mit Beispielsätzen und generate the language file based on it. Es gibt eine Online-Version, die es für Sie tun kann: lmtool

+1

Immer noch, in einer Art von N-Grammen, Backoff, etc ... Was sind das und wo kann ich mehr Informationen über diese finden? – Lukasz

+1

@Lukasz Was ist N-Gramm? [Eine Folge von N Wörtern] (http://en.wikipedia.org/wiki/N-gram). Backoff ist optional. Und die Wahrscheinlichkeit ist, soweit ich mich erinnere, im Log 10-Maßstab. – Dariusz

4

fand ich diesen Link nützlich: http://www.speech.sri.com/projects/srilm/manpages/ngram-format.5.html

Es unterstützt das Format n-gram aka ARPA aka Doug Paul beschreibt.

+0

Könnten Sie vielleicht ein kleines Beispiel hochladen (z. B. mit zwei Sätzen und einer Wortschatzgröße von etwa 5?) –

+0

Ihre Antwort ist mittlerweile nur noch ein Like + der Name "Doug Paul Format". Der Link war schon in der Frage. –