2017-10-11 2 views
2

Ich bin dabei, eine Software-Plattform zu entwickeln, die Linguisten und Anthropologen bei der Untersuchung bisher unbekannter Sprachen unterstützt. Statistiken zeigen, dass es rund 1.000 Sprachen gibt, die nie von einer Person außerhalb ihrer jeweiligen Sprechergruppen untersucht wurden.IPA (International Phonetic Alphabet) Transkription mit Tensorflow

Mein Ziel ist es, mit TensorFlow eine Plattform zu schaffen, die es Linguisten ermöglicht, diese Sprachen effizienter zu studieren und zu dokumentieren und schriftliche Systeme für diejenigen zu erstellen, die noch kein geschriebenes System haben. Eine ihrer derzeitigen Methoden, um eine solche Aufgabe zu erfüllen, ist dreifacher Art: 1) Aufzeichnung eines Muttersprachlers, der sich in der Sprache unterhält, 2) Anhören dieser Aufzeichnung und Versuch, sie in die IPA zu übertragen, 3) Aus der Phonetik, Analysieren der Phonemik und phonotactics der Sprache, um schließlich ein geschriebenes System für den Sprecher zu schaffen.

Meine vorgeschlagene Plattform würde diese Forschungszeit von einem Minimum von einem Jahr auf ein Maximum von sechs Monaten reduzieren. Bevor ich anfange, habe ich einige Fragen ...

Was wäre erforderlich, um TensorFlow zu trainieren, um Live-Audio in die IPA zu transkribieren? Ist das schon gemacht worden? und wenn ja, wie würde ich eine vorherige Lösung für dieses Projekt nutzen? Ist ein solches Projekt mit TensorFlow überhaupt möglich? Wenn nicht, was würden Sie stattdessen empfehlen?

Ich entschuldige mich für die Größenordnung dieser Frage. Ich habe nicht viel Erfahrung im Bereich des maschinellen Lernens, da ich gerade den Forschungsprozess für dieses Projekt beginne. Jede Hilfe wird geschätzt!

+0

Haben Sie mit einem Linguisten darüber gesprochen? Phonemerkennung kann viel schwieriger als das Erkennen von Wörtern https://cmusphinx.github.io/wiki/phoneme recognition/ – Aaron

+0

@Aaron technisch, es ist * Telefone * hier, nicht Phoneme, aber nicht sicher, ob es es besser macht ... – lenz

Antwort

1

Ich denke, ich werde einen ersten Schuss auf diese Antwort nehmen. Da die Frage ziemlich allgemein ist, muss meine Antwort auch ziemlich allgemein sein.

  1. Was wäre erforderlich. Zumindest müssten Sie einen großen Datensatz vor-transkribierter Daten haben. Idealerweise wird eine große Menge gesprochener Sprache auf Zeichen in dem phonetischen Alphabet abgebildet, so dass das System den Klang von einzelnen Zeichen anstelle von ganzen transkribierten Wörtern lernen kann. Wenn ein solcher Datensatz nicht existiert, könnte ein weniger granularer Datensatz verwendet werden, der einzelne Wörter auf ihre Transkriptionen abbildet. Dann würden Sie ein Modell benötigen, das ist die tatsächliche neuronale Netzwerkarchitektur, die im Code implementiert ist. Und zu guter Letzt würden Sie einige Computerressourcen benötigen. Das ist nicht etwas, das man beiläufig trainieren kann, sondern man muss entweder etwas Zeit in einem cloudbasierten Machine-Learning-Framework (wie Google Cloud ML) kaufen oder eine ziemlich teure Maschine bauen, um zu Hause zu trainieren.

  2. Wurde dies getan? Ich weiß es nicht. Ich denke nicht. Es wurden Veröffentlichungen veröffentlicht, die verschiedene Grade von Erfolg bei Trainingssystemen zur Transkription von Sprache berichten. Hier ist eine, zum Beispiel, http://deeplearning.stanford.edu/lexfree/lexfree.pdf Es scheint, dass, da das Alphabet, das Sie übertragen möchten, speziell entwickelt wurde, um die Art, wie Wörter klingen, zu erfassen, anstatt nur die Wörter aufzuschreiben, die Sie vielleicht mehr Erfolg beim Training eines solchen Modells haben.

  3. Ist es möglich mit TensorFlow. Ja, sehr wahrscheinlich. TensorFlow eignet sich gut für die Implementierung der meisten modernen Deep-Learning-Architekturen. Es sei denn, Sie entwickeln ein wirklich seltsames und sehr originelles Modell für diesen Zweck, TensorFlow sollte gut funktionieren.

bearbeiten: nach einigem Nachdenken in Teil 1, würden Sie einen Datensatz Mapping Worte gesprochen, um ihre Transkriptionen verwenden müssen, da ich, dass der gleiche Ton separat anders wäre ausgesprochen erwarten aus, wenn der gleiche Ton in einem Wort verwendet.

Verwandte Themen