Gibt es eine Möglichkeit, in Echtzeit zu erkennen, wenn mehrere Personen sprechen? Brauche ich dafür eine Spracherkennung API?Erkennen mehrerer Stimmen ohne Spracherkennung
Ich möchte das Audio nicht trennen und ich möchte es auch nicht transkribieren. Mein Ansatz wäre, häufig mit einem Mikrofon aufzunehmen (-> Mono) und dann diese Aufnahmen zu analysieren. Aber wie könnte ich dann Stimmen erkennen und unterscheiden? Ich würde es eingrenzen, indem ich nur relevante Frequenzen ansehe, aber dann ...
Ich verstehe, dass dies keine triviale Angelegenheit ist. Deshalb hoffe ich, dass es da draußen eine API gibt, die dies out-of-the-box machen kann - vorzugsweise eine mobile/web-freundliche API.
Jetzt könnte dies wie eine Einkaufsliste für Weihnachten klingen, aber wie erwähnt muss ich nichts über den Inhalt wissen. Meine Vermutung ist also, dass eine vollwertige Spracherkennung einen hohen Preis für die Leistung hätte.
Dank versuchen, das sieht sehr gut aus. Ich denke, ich verstehe die Idee dahinter und werde versuchen, sie zu führen. Idealerweise müsste das Programm den GMM-Klassifikator auf aktuelle Stimmen trainieren, wenn er gestartet wird. Ich habe Python noch nicht benutzt, aber ich werde es versuchen. –