2017-01-19 13 views
0

Ich habe eine Audiodatei der menschlichen Sprache. Die Länge des Audios beträgt ca. 1 Minute. Ich möchte einen Zeitstempel eines Wortes oder einer Phrase finden, die im Audio gesprochen werden.Zeitstempel eines Wortes in einem Audio finden

Gibt es eine vorhandene Bibliothek, die die Aufgabe ausführen kann?

Antwort

1

Es gibt mindestens zwei Möglichkeiten, dieses Problem anzugehen: Spracherkennung und maschinelles Lernen. Welche besser geeignet ist, hängt von Ihren Umständen ab.

Mit Spracherkennung können Sie das Audio über einen etablierten Sprach-zu-Text-Erkenner ausführen und den Zeitstempel des Worts basierend auf seiner Entfernung vom Anfang der resultierenden Zeichenfolge beurteilen. Mit maschinellem Lernen würden Sie ein Modell für den Ton erstellen, der durch das Wort oder die Phrase aus den Trainingsdaten erzeugt wird. Dann schneiden Sie das Test-Audio in geeignete Längen und führen jedes gegen das Modell, um die Wahrscheinlichkeit zu bestimmen, dass es das Wort ist, nach dem Sie suchen.

Der maschinelle Lernansatz ist wahrscheinlich in Bezug auf den Zeitstempel genauer, erfordert aber natürlich viele Trainingsdaten, um das Modell überhaupt zu erstellen.

Verwandte Themen