So dekodieren Sie Spracheingabe

Was ich tun möchte, ist eine API, die menschliche Sprache in das IPA (International Phonetic Alphabet) -Format übersetzt. Meine Frage ist, wo sind die Ressourcen zum Decodieren von Sprache auf der Ebene der ursprünglichen Audio-Wellenform. Ich habe nach einer API gesucht, aber das meiste, was ich gefunden habe, übersetzt sich direkt in das lateinische Alphabet. Ich suche etwas genaueres in seiner Fähigkeit, die Lautphonik zu unterscheiden.So dekodieren Sie Spracheingabe

Quelle

2012-07-19 josiah

Ich möchte nur sagen, dass dieses Projekt viel schwieriger und komplizierter ist als Sie denken. Sprache zu Textverarbeitung ist ein sehr großes und kompliziertes Feld mit einer riesigen Menge an Forschung, die darin gemacht wurde. Der Grund, warum die meisten Parser Dinge direkt an römische Zeichen senden, liegt darin, dass der Großteil ihrer Verarbeitung ein probabilistisches Matching von vagen Sounds mit ihrem Kontext anderer vager Sounds ist, um zu erraten, welche Wörter zusammen Sinn ergeben. Es ist viel wahrscheinlicher, dass Sie etwas finden, das Ihnen Soundex und nicht IPA bietet. Das ist ein Problem, das an mehreren Fronten angegangen wurde. Ihre beste Wette ist wahrscheinlich das Sphinx-Projekt von CMU.

http://cmusphinx.sourceforge.net/wiki/start

, dass Ihnen einen guten Start geben, aber Sie eine Annahme, dass die Sprachverarbeitung in Text ist viel mehr entwickelt als es tatsächlich ist, und es gibt keine einfache Möglichkeit, Sprache zu IPA durch die Wellenform des Übersetzens mit jede Art von Genauigkeit. Sphinx ist sehr modular und vollständig Open-Source und so würde es Ihnen eine riesige Menge an Kraft an Ihren Fingerspitzen geben, und an diesem Punkt, ob Sie herausfinden können, wie Sie diese Arbeit machen, liegt an Ihnen, aber wieder. Dies ist kein gelöstes Problem in irgendeiner Weise.

Quelle

2012-07-19 18:02:01

Klingt nach etwas, das es wert ist, getan zu werden. Hat jemand dokumentiert, was über aktuelle Methoden für Sprache <--> Text bekannt ist? – josiah

Es ist fast alles unter CMU Sphinx, sie haben ein ziemlich umfangreiches Protokoll von Experimenten und Modifikationen, so dass Sie nicht nur sehen können, was derzeit als die neuesten und größten implementiert ist, aber Sie können auch die Experimente sehen, die sie ausführen, um Funktionen zu finden optimale Leistung. http://sourceforge.net/projects/cmusphinx/forums/forum/5470 –

Ziemlich glatt. Ich freue mich auf dieses Projekt. Vielen Dank! – josiah

So dekodieren Sie Spracheingabe

Antwort

Verwandte Themen