Was ich tun möchte, ist eine API, die menschliche Sprache in das IPA (International Phonetic Alphabet) -Format übersetzt. Meine Frage ist, wo sind die Ressourcen zum Decodieren von Sprache auf der Ebene der ursprünglichen Audio-Wellenform. Ich habe nach einer API gesucht, aber das meiste, was ich gefunden habe, übersetzt sich direkt in das lateinische Alphabet. Ich suche etwas genaueres in seiner Fähigkeit, die Lautphonik zu unterscheiden.So dekodieren Sie Spracheingabe
Antwort
Ich möchte nur sagen, dass dieses Projekt viel schwieriger und komplizierter ist als Sie denken. Sprache zu Textverarbeitung ist ein sehr großes und kompliziertes Feld mit einer riesigen Menge an Forschung, die darin gemacht wurde. Der Grund, warum die meisten Parser Dinge direkt an römische Zeichen senden, liegt darin, dass der Großteil ihrer Verarbeitung ein probabilistisches Matching von vagen Sounds mit ihrem Kontext anderer vager Sounds ist, um zu erraten, welche Wörter zusammen Sinn ergeben. Es ist viel wahrscheinlicher, dass Sie etwas finden, das Ihnen Soundex und nicht IPA bietet. Das ist ein Problem, das an mehreren Fronten angegangen wurde. Ihre beste Wette ist wahrscheinlich das Sphinx-Projekt von CMU.
http://cmusphinx.sourceforge.net/wiki/start
, dass Ihnen einen guten Start geben, aber Sie eine Annahme, dass die Sprachverarbeitung in Text ist viel mehr entwickelt als es tatsächlich ist, und es gibt keine einfache Möglichkeit, Sprache zu IPA durch die Wellenform des Übersetzens mit jede Art von Genauigkeit. Sphinx ist sehr modular und vollständig Open-Source und so würde es Ihnen eine riesige Menge an Kraft an Ihren Fingerspitzen geben, und an diesem Punkt, ob Sie herausfinden können, wie Sie diese Arbeit machen, liegt an Ihnen, aber wieder. Dies ist kein gelöstes Problem in irgendeiner Weise.
- 1. Spracheingabe für Spiegelkarten verwenden?
- 2. Spracheingabe für Spiegelkarten verwenden?
- 3. Build Chrome Extension mit Spracheingabe
- 4. So dekodieren HTML-Entität mit Lenkstangen
- 5. Kann UITextField die Spracheingabe automatisch öffnen?
- 6. Direkte Sprach-/Spracheingabe im mobilen Browser
- 7. So dekodieren BLOB-Datenobjekt aus der Sitzungstabelle CI
- 8. Einen Hash dekodieren
- 9. Unicode-Text rückwärts dekodieren
- 10. base64 Dekodieren/Inkonsistenz codieren
- 11. Variablen in PHP dekodieren
- 12. PHP: json dekodieren Grenzen
- 13. Python 3.4 dekodieren Bytes
- 14. So extrahieren/dekodieren Sie die Ablaufzeit von extern ausgegebenen Json Web Token
- 15. JSON dekodieren in PHP
- 16. AS3 XML-Datei dekodieren
- 17. PHP dekodieren JSON verschachtelt
- 18. PHP dekodieren JSON POST
- 19. RLE effizient dekodieren in CUDA
- 20. wie _id von json dekodieren
- 21. Wie JWT Token zu dekodieren?
- 22. Wie füge ich eine zusätzliche Spracheingabe zu Android hinzu?
- 23. AngularJs dekodieren HTML-Zeichen (unerwünscht)
- 24. JSON mit unbekannter Struktur dekodieren
- 25. dekodieren hex js in Drupal
- 26. Bitmap dekodieren Datei zurückgeben Null
- 27. Erhalten Sie Spracheingabe als eine Mischung aus vordefinierter Grammatik und freier Rede in einer UWP-Anwendung?
- 28. Wie kodieren/dekodieren Sie beliebige Daten mit OpenSSL?
- 29. Wie dekodieren Sie einen Anfang ... Vault "Code" oder Hack?
- 30. dekodieren Sie einen Datei-Stream mit UTF-8
Klingt nach etwas, das es wert ist, getan zu werden. Hat jemand dokumentiert, was über aktuelle Methoden für Sprache <--> Text bekannt ist? – josiah
Es ist fast alles unter CMU Sphinx, sie haben ein ziemlich umfangreiches Protokoll von Experimenten und Modifikationen, so dass Sie nicht nur sehen können, was derzeit als die neuesten und größten implementiert ist, aber Sie können auch die Experimente sehen, die sie ausführen, um Funktionen zu finden optimale Leistung. http://sourceforge.net/projects/cmusphinx/forums/forum/5470 –
Ziemlich glatt. Ich freue mich auf dieses Projekt. Vielen Dank! – josiah