Es gibt mindestens zwei Möglichkeiten, dieses Problem anzugehen: Spracherkennung und maschinelles Lernen. Welche besser geeignet ist, hängt von Ihren Umständen ab.
Mit Spracherkennung können Sie das Audio über einen etablierten Sprach-zu-Text-Erkenner ausführen und den Zeitstempel des Worts basierend auf seiner Entfernung vom Anfang der resultierenden Zeichenfolge beurteilen. Mit maschinellem Lernen würden Sie ein Modell für den Ton erstellen, der durch das Wort oder die Phrase aus den Trainingsdaten erzeugt wird. Dann schneiden Sie das Test-Audio in geeignete Längen und führen jedes gegen das Modell, um die Wahrscheinlichkeit zu bestimmen, dass es das Wort ist, nach dem Sie suchen.
Der maschinelle Lernansatz ist wahrscheinlich in Bezug auf den Zeitstempel genauer, erfordert aber natürlich viele Trainingsdaten, um das Modell überhaupt zu erstellen.