2016-07-11 15 views
0

Gibt es eine Möglichkeit, in Echtzeit zu erkennen, wenn mehrere Personen sprechen? Brauche ich dafür eine Spracherkennung API?Erkennen mehrerer Stimmen ohne Spracherkennung

Ich möchte das Audio nicht trennen und ich möchte es auch nicht transkribieren. Mein Ansatz wäre, häufig mit einem Mikrofon aufzunehmen (-> Mono) und dann diese Aufnahmen zu analysieren. Aber wie könnte ich dann Stimmen erkennen und unterscheiden? Ich würde es eingrenzen, indem ich nur relevante Frequenzen ansehe, aber dann ...

Ich verstehe, dass dies keine triviale Angelegenheit ist. Deshalb hoffe ich, dass es da draußen eine API gibt, die dies out-of-the-box machen kann - vorzugsweise eine mobile/web-freundliche API.

Jetzt könnte dies wie eine Einkaufsliste für Weihnachten klingen, aber wie erwähnt muss ich nichts über den Inhalt wissen. Meine Vermutung ist also, dass eine vollwertige Spracherkennung einen hohen Preis für die Leistung hätte.

Antwort

1

Die meisten ähnlichen Probleme (Klassifizierer für Erwachsene/Kinder, Sprach-/Musikklassifizierer, Klassifizierer für eine Stimme/Stimme) sind Standardprobleme beim maschinellen Lernen. Sie können sie mit einem Klassifizierer wie GMM lösen. Sie müssen nur Trainingsdaten für Ihre Aufgabe konstruieren, so:

  1. eine gewisse Menge an saubere Aufnahmen nehmen, können Sie Hörbuchs
  2. gemischte Daten vorbereiten herunterladen, indem saubere Aufnahmen
  3. Zug GMM Klassifikator Mischen auf beiden
  4. Vergleichen Sie die Wahrscheinlichkeiten von Clean Speech GMM und Mixed Speech GMM und entscheiden Sie das Vorhandensein von Mischung durch das Verhältnis der Wahrscheinlichkeiten von zwei Klassifikatoren.

Sie können einige Code-Beispiele finden Sie hier:

https://github.com/littleowen/Conceptor

Zum Beispiel können Sie

https://github.com/littleowen/Conceptor/blob/master/Gender.ipynb

+0

Dank versuchen, das sieht sehr gut aus. Ich denke, ich verstehe die Idee dahinter und werde versuchen, sie zu führen. Idealerweise müsste das Programm den GMM-Klassifikator auf aktuelle Stimmen trainieren, wenn er gestartet wird. Ich habe Python noch nicht benutzt, aber ich werde es versuchen. –