3

Ich versuche, die Cloud Speech-API von Google zu verwenden. Es ist Dokumentation und Code-Beispiele hier:Welche Audiodateitypen erkennt Google Cloud Speech API?

https://cloud.google.com/speech/docs/basics 
https://cloud.google.com/speech/docs/rest-tutorial 

Ich kann den Beispielcode erhalten ganz gut zu laufen, wenn ich es auf eine Datei enthalten zeigen, audio.raw, aber nicht mit einer kurzen .wav-Datei.

Ich habe keine Ahnung, welches Format der Audio-Beispieldatei:

$ file audio.raw 
audio.raw: data 

Mit meiner .wav-Datei, die vielleicht 10 Sekunden Ton hat ich ein leeres Ergebnis.

Ich bin mir dieser Antwort bewusst.

google cloud speech api returning empty result

Meine Frage wurde vor gefragt, aber es gab keine Antwort auf die Frage.

What types of audio are supported by Cloud Speech API?

Ich kann mir nicht vorstellen, dass ich, um die Eigenschaften der Audiodatei dies funktioniert richtig hinzubekommen bekommen würde. Ich nehme an, ein gemeinsamer Anwendungsfall, meins, ist, dass jemand ein Meeting aufzeichnet, keine Ahnung von den Parametern der Aufnahme hat und nur eine Textdatei will.

+0

@ Alex Ich sehe, Sie reagierte auf http://stackoverflow.com/questions/39712623/google-cloud-speech-api-returning-empty-result. Irgendwelche Gedanken zu meiner Frage? – Sol

+1

Sie können keine anderen Verwendungen an SO melden (@foo funktioniert hier nicht so) –

+0

Gut zu wissen. Vielen Dank. – Sol

Antwort

3

WAV e scheint nicht unterstützt zu werden. Diese Formate sind jedoch folgendermaßen dokumentiert:

  • LINEAR16 Unkomprimierte 16-Bit-Little-Endian-Beispiele mit Vorzeichen. Dies ist die einzige Codierung, die von read.asyncrecognize verwendet werden kann.
  • FLAC Dies ist die empfohlene Codierung für read.syncrecognize und StreamingRecognize, da es eine verlustfreie Komprimierung verwendet; daher Erkennungsgenauigkeit wird nicht durch einen verlustbehafteten Codec kompromittiert. Nur 16-Bit-Samples werden unterstützt. Nicht alle Felder in STREAMINFO werden unterstützt.
  • MULAW 8-Bit-Samples, die 14-Bit-Audioproben mit G.711 PCMU/mu-law kompandieren.
  • AMR Adaptiver Multi-Rate Narrowband Codec. sampleRate muss 8000 Hz sein.
  • AMR_WB Adaptiver Multi-Raten-Breitband-Codec. sampleRate muss 16000 Hz sein.

https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding

+0

Danke. Das hat mich an diesem Problem vorbeigeführt. Ich habe sox installiert und die .wav-Datei in .flac konvertiert. Jetzt bekomme ich ein anderes Problem, über das ich getrennt forschen und berichten werde. – Sol

+1

wie bei flac: 'Nur 16-Bit-Samples werden unterstützt. Nicht alle Felder in STREAMINFO werden unterstützt. Prüft Dokumente –

Verwandte Themen