2017-02-23 6 views
0

Ich erstellte ein benutzerdefiniertes akustisches Modell (das eine Reihe von Audiodateien von Sprachdaten in einer Zip-Datei enthält, und die Transkriptionen jeder Audiodatei durch einen Tab in getrennt eine Textdatei) und importierte sie. Nach dem Erstellen der Bereitstellung habe ich versucht, den Endpunkt durch Hochladen einer Audiodatei zu testen, und die Texttranskription wurde wie erwartet zurückgegeben.Microsoft Custom Speech Service zum Akzeptieren von Audiodatei und Transkription nacheinander

Aber hier ist der Plan: das OOB akustische Modell, das Microsoft mit dem Custom Speech bietet, zusammenzuführen. Versuchte das WPF-Beispiel (https://github.com/Microsoft/Cognitive-Speech-STT-Windows), das 4 Sprache-zu-Text-Transkriptionen zurückgibt. Was wir wollen, ist für jede Nachricht (eine Audiodatei), der Benutzer wird diese 4 Transkriptionen zur Verfügung gestellt und er wird wählen, welche ist richtig.

Jetzt möchten wir die aufgezeichnete Audiodatei und die korrekte Transkription dem Custom Speech Service zuführen. Wie können wir programmatisch die akustischen Daten importieren und ein Modell dafür erstellen (anstatt manuell die gesamte Zip-Datei von Audios und die Textdatei mit dem Schlüssel-Wert-Paar des Dateinamens und der Transkription und so weiter hochzuladen)? (Bearbeiten Sie die vorhandenen akustischen Daten jedes Mal, nicht importieren Sie eine neue)

Oder wenn wir es nicht einzeln nacheinander liefern können (jedes Mal, wenn der Benutzer zu Ende gesprochen hat), können wir die Audiodateien erst in einer Zip-Datei sammeln Sammeln Sie dann die Dateinamen und Transkriptionen in einer Textdatei, sobald die gesamte Konversation beendet ist. Das Problem besteht jedoch weiterhin darin, das Importieren und Modellieren programmgesteuert durchzuführen. Oder ist es überhaupt möglich?

Vielen Dank für Ihre Hilfe!

Antwort

0

Der benutzerdefinierte Sprachdienst bietet derzeit keine APIs zum programmgesteuerten Ausführen der von Ihnen beschriebenen Funktionen. Es gibt jedoch einen Plan zur Freigabe von APIs in den kommenden Monaten.

+0

Custom Speech Speech (cris.ai) bietet derzeit eine Portalerfahrung, bei der Benutzer ihre Daten importieren, benutzerdefinierte Modelle erstellen, bereitstellen und über einen Endpunkt darauf zugreifen können. Es gibt einen Plan, diese Operationen zukünftig über APIs zu unterstützen – CRIS

Verwandte Themen