2016-09-07 2 views
2

Ich sehe ein seltsames Verhalten, bei dem die Spracherkennungs-API manchmal Wörter zurückgibt und manchmal Zahlen zurückgibt. Zum Beispiel gibt es angesichts der Audioeingabe von "fünfzehn Dollar und sieben Cent" manchmal "fünfzehn Dollar und sieben Cent" und andere "15,07". Gibt es eine Möglichkeit, sicherzustellen, dass der eine oder andere zurückgegeben wird? Oder muss ich selbst Wörter analysieren und in Zahlen umwandeln?Bing-Spracherkennung API-Ausgabe - Anzahl im Vergleich zum Text

Danke!

+0

Es gibt bereits eine solche Frage hier http://stackoverflow.com/questions/39325602/getting-difference-results-via-bing-speech-recognition-api-beta-for-same-audio –

Antwort

1

Ich habe gerade ähnliche Probleme untersucht und festgestellt, dass BingSTT API beide Versionen in verschiedenen Feldern zurückgibt. Gerade versucht Ihr Beispiel mit dem Beispiel-Code von hier: https://github.com/Microsoft/Cognitive-Speech-STT-JavaScript und bekam diese Antwort:

[{ 
"lexical": "fifteen dollars and seven cents", 
"display": "$15.07.", 
"inverseNormalization": null, 
"maskedInverseNormalization": null, 
"transcript": "$15.07.", 
"confidence": 0.9474185 
}] 

Also ich denke, die Wahl, welches Feld, lexikalische oder die Anzeige zu verwenden. Hoffe das hilft.

Verwandte Themen