Ich konnte kurze Diktierantworten von der REST API von Bing Voice Recognition erhalten. Mein Ziel ist es, Antworten für Audiodateien zu erhalten, die länger als 15-30 Sekunden sind (langer Diktiermodus). Also, was mich für die kurzen Antworten bekommen ist die folgende (Ich bin ein HTML UWP App Entwicklung):Wie kann ich lange Diktierergebnisse von der REST-Spracherkennungs-API von Microsofts Cognitive Services erhalten?
- ein
ArrayBuffer
Generieren von einer Audio-Datei (wav) - Authentifizierung über Access Token
- Senden Audiodaten an REST-API mit den folgenden Einstellungen:
var accessToken = [[accessTocken]];
var url = 'https://speech.platform.bing.com/recognize?';
var params = {
'version': '3.0',
'format': 'json',
'locale': 'en-US',
'device.os': 'Windows OS',
'scenarios': 'smd',
'appid': 'D4D52672-91D7-4C74-8AD8-42B1D98141A5',
'requestid': guid(),
'instanceid': guid()
};
var options = {
url: url + $.param(params),
type: "POST",
headers: {
'Authorization': 'Bearer ' + accessToken,
'Content-Type': 'audio/wav; samplerate=16000'
},
data: data
};
return WinJS.xhr(options);
Also das funktioniert! Aber wie kann ich das für lange Diktatszenarien tun?
Bitte verweisen Sie nicht auf das JavaScript GitHub-Repository unter https://github.com/microsoft/Cognitive-Speech-STT-Javascript. Dies funktioniert nur für kurze Diktat und funktioniert nicht im Edge-Browser.