Ich arbeite an einem Programm, das interagiert mit Menschen mit Spracherkennung und Sprachsynthese (es ist ein virtueller Avatar). Der Benutzer kann mit dem Avatar sprechen. Ferner hat das Programm ein Fernmodul, mit dem der Benutzer mit einem Fernbediener sprechen kann. Der Fernbediener spricht durch den Avatar.Konvertieren von Sprache in Text und dann Text in Sprache im laufenden Betrieb
Wenn der Benutzer mit Remote-Operator spricht, was wir derzeit tun, ist Sprache in Text im Remote-Modul konvertieren, dann senden Sie den Text an Hauptmodul und dann wieder den Text in Sprache und umgekehrt. Wenn die Nachricht jedoch langwierig ist, führt dies zu einer großen Latenzzeit (erst nach Erkennen aller Sprache können wir den Text senden und in Sprache konvertieren). Daher erlaubt dies keine gute Konversation zwischen Benutzer und Fernbediener (der Benutzer sollte nicht erkennen, dass jemand anders spricht, es sollte so aussehen, als würde der Avatar mit dem Benutzer sprechen, daher sollte es keine große Latenz geben).
Ist es möglich, dies in C# .NET zu implementieren? Hat jemand eine Idee, wie man das erreicht?