2017-04-13 8 views
-1

Können wir MP3-Audiodatei in Sprache zu Text Watson API verwenden?Speech to Text-Audioformate

Was sind die beliebten nicht unterstützten Formate für Sprache zu Text Watson API?

+0

Gibt es irgendetwas, was Sie versucht haben, mit dem Sie zu kämpfen haben (zB: auch manuelle kann nicht helfen)? Alles, was Sie fragen, sollte bereits auf ihrer Website beantwortet werden. –

Antwort

0

Ich schlage vor, Sie WAV-Format verwenden, im Fall: gängiges Format. Hängt vom Fall ab. Wenn Sie wirklich MP3 verwenden müssen, können Sie einfach zu convert MP3 zu WAV.

Aber die Formate Speech-Unterstützung in Text ist:

  • Audio/flac: Free Lossless Audio Codec (FLAC ), ein verlustfrei komprimierte Audiocodierungsformat. Weitere Informationen finden Sie unter de.wikipedia.org/wiki/FLAC.

  • Audio/l16: Linear 16-Bit-Pulse-Code Modulation (PCM ), ein unkomprimiertes Audiodatenformat. Verwenden Sie diesen Medientyp, um eine rohe PCM-Datei zu übergeben. Beachten Sie, dass lineares PCM-Audio auch in einer Waveform Audio File Format-Datei (WAV-Datei) gespeichert werden kann. Weitere Informationen finden Sie in der Request for Comment (RFC) 2586 der Internet Engineering Task Force (IETF) und in de.wikipedia.org/wiki/Pulse-code_modulation.

  • Audio/wav: Wellenform-Audio-Dateiformat (WAV), ein Standard erstellt von Microsoft® und IBM. Eine WAV-Datei ist ein Container, der oft für unkomprimierte Audio-Bitstreams verwendet wird, aber auch komprimiertes Audio enthalten kann. Weitere Informationen finden Sie unter de.wikipedia.org/wiki/WAV. Der Dienst unterstützt WAV-Dateien, die eine beliebige Codierung verwenden. Es akzeptiert Audio mit maximal neun Kanälen (aufgrund einer FFmpeg-Beschränkung).

  • Audio/OGG/ Audio/OG; Codecs = Opus/Audio/OGG; codecs = vorbis: Ogg ist ein freies, offenes Containerformat, das von der Xiph.org Foundation gepflegt wird; Weitere Informationen finden Sie unter www.xiph.org/ogg/. Beide Codecs sind freie, offene, verlustbehaftete Audiokompressionsformate. Opus ist der bevorzugte Codec. Wenn Sie den Codec weglassen, erkennt der Dienst ihn automatisch aus dem Audioeingang.

  • Audio/WebM/ Audio/webm; Codecs = opus/Audio/webm; Codecs = Vorbis: Web Media (WebM) ist ein offenes Medien-Dateiformat; Weitere Informationen finden Sie unter webmproject.org. WebM unterstützt Audio-Streams, die mit den Audio-Codecs Opus und Vorbis komprimiert wurden. Opus ist der bevorzugte Codec. Wenn Sie den Codec weglassen, erkennt der Dienst ihn automatisch aus dem Audioeingang. Für JavaScript-Code, der zeigt, wie Audio von einem Mikrofon in einem Chrome-Browser erfasst und in einen WebM-Datenstrom codiert wird.

Aber alle Formate mit mehr Details Sie in der Speech sehenOfficial Documentation in Text. Ich empfehle Ihnen, mit mehr Details zu bearbeiten und lesen Sie die Dokumentation, im Allgemeinen ist die Dokumentation von IBM sehr objektiv und vollständig.

0

Kämpfen Sie nicht mit der Auswahl eines bestimmten Audioformats für die Umwandlung von Sprache in Text, die meisten der manuellen Sprache zu Text oder transcription services akzeptiert alle verfügbaren Formate. Wenn wir den automatischen Sprach-zu-Text-Dienst verwenden, bevorzuge ich immer Wav über MP3, da es High-Bit-Audiodaten enthält, ohne die Qualität des Audios zu verlieren und von den meisten Sprach-Engines akzeptiert zu werden. Und hier ist die Liste der Formate, die von jedem Unternehmen unterstützt werden: https://www.transcriptionwave.com/format.html