Ich benutze pocketsphinx, um Audio in Text zu konvertieren. Es funktioniert gut. Jetzt möchte ich einen Zeitstempel für jedes Wort erhalten. Dies ist mein Code:pocketsphinx python geben falsche timestamp
import speech_recognition as sr
r = sr.Recognizer()
framerate = 100
with sr.AudioFile("1.wav") as source:
audio = r.record(source)
decoder = r.recognize_sphinx(audio, show_all=False)
print ([(seg.word, seg.start_frame/framerate)for seg in decoder.seg()])
Nach ihrer Dokumentation, die Standard-Framerate ist 100. Ich die Startzeit eines jeden Wortes bekam. Es ist jedoch falsch. Der Unterschied beträgt 2 Sekunden, manchmal mehr als 3 Sekunden.
Es ist bekannt Problem oder fehle ich etwas?