0

Ich benutze IBM Watson-Sprache-zu-Text-Service zu Transkripte für einige Telefonie Audio-Dateien (8 kHz) zu generieren. Ich habe sowohl WAV- als auch Opus-Versionen der gleichen Dateien ausprobiert. Ich habe bei der Verwendung des Opus-Formats keine wesentliche Verschlechterung der Qualität des Transkripts gesehen. Ich denke darüber nach, nur das Opus-Format der Dateien zu speichern, um den Speicherplatzbedarf zu reduzieren und die Dateiübertragungszeit zu verringern. Ist es im Allgemeinen besser, das wav-Format für höhere Transkripte zu verwenden? Gibt es eine Verschlechterung der Qualität des Transkripts, wenn wir das Opus-Format verwenden?wav vs opus: sprache-zu-text transkript qualität

Antwort

0

Nur Sie kennen die Anforderungen (sowohl Gegenwart als auch Zukunft) für Ihren Anwendungsfall, daher ist es schwierig, eine klare Antwort zu geben. Davon abgesehen habe ich die Qualität von Opus persönlich als sehr gut empfunden.

Hier sind einige Links über die Qualität des Opus-Codec, die Sie interessant finden könnte:

2

Wenn die Bitrate nicht die Erkennungsgenauigkeit verschlechtern sollte genug OPUS ist . Sie sollten die niedrigste Bitrate verwenden, die die Genauigkeit nicht beeinträchtigt, was experimentell bestimmt werden kann (versuchen Sie es mit verschiedenen Bitraten und berechnen Sie die Word Error Rate).

Alternativ können Sie FLAC verwenden, das verlustfrei ist und normalerweise einen Kompressionsfaktor von 5X im Vergleich zu unkomprimiertem wav bietet.

Schließlich sollten Sie nicht vergessen, dass die Abtastrate nicht höher als 16 kHz sein soll, da dies für die Erkennung nicht nützlich ist und den Speicherplatz beträchtlich erhöht.