2017-11-16 2 views
-1

Ich arbeite an einem Programm, das interagiert mit Menschen mit Spracherkennung und Sprachsynthese (es ist ein virtueller Avatar). Der Benutzer kann mit dem Avatar sprechen. Ferner hat das Programm ein Fernmodul, mit dem der Benutzer mit einem Fernbediener sprechen kann. Der Fernbediener spricht durch den Avatar.Konvertieren von Sprache in Text und dann Text in Sprache im laufenden Betrieb

Wenn der Benutzer mit Remote-Operator spricht, was wir derzeit tun, ist Sprache in Text im Remote-Modul konvertieren, dann senden Sie den Text an Hauptmodul und dann wieder den Text in Sprache und umgekehrt. Wenn die Nachricht jedoch langwierig ist, führt dies zu einer großen Latenzzeit (erst nach Erkennen aller Sprache können wir den Text senden und in Sprache konvertieren). Daher erlaubt dies keine gute Konversation zwischen Benutzer und Fernbediener (der Benutzer sollte nicht erkennen, dass jemand anders spricht, es sollte so aussehen, als würde der Avatar mit dem Benutzer sprechen, daher sollte es keine große Latenz geben).

Ist es möglich, dies in C# .NET zu implementieren? Hat jemand eine Idee, wie man das erreicht?

Antwort

1

Ich würde Microsoft Cognitive Services auschecken.

https://docs.microsoft.com/en-us/azure/cognitive-services/speech/home

Sie bieten nativen Clients, die in Echtzeit bieten Ergebnisse, die Sie suchen:

The Speech-Client-Bibliotheken: Unterstützung erweiterte Funktionen bei der Spracherkennung, wie Zwischenergebnisse in Echtzeit , langer Audio-Stream (bis zu 10 Minuten) und kontinuierliche Erkennung. Stellen Sie eine einfache und idiomatische API in der Sprache Ihrer Wahl bereit. Verbergen Sie Low-Level-Kommunikationsdetails.

Derzeit sind die folgenden Speech-Client-Bibliotheken zur Verfügung:

  • C# Desktop-Bibliothek
  • C# Service Bibliothek
  • JavaScript-Bibliothek
  • Java-Bibliothek für Android
  • Objective-C-Bibliothek für iOS

C# Desktop-Bibliothek Proben sind verfügbar unter: https://github.com/Azure-Samples/Cognitive-Speech-STT-Windows

Quelle: https://docs.microsoft.com/en-us/azure/cognitive-services/speech/getstarted/getstartedclientlibraries