2016-12-20 2 views
0

Ich werde ein Spracherkennungsprogramm basierend auf Hidden-Markov-Modell bauen. Leider weiß ich nicht, wie man eine Eingangs-Tonsequenz erhält und, naja, arbeite damit. Kann mir jemand sagen, wie der allgemeine Ansatz zum Lesen von Werten aus einem Audiodateiformat (d. H. .wav, .mp3, usw.) und dem Schneiden eines Soundtracks in C++ - Stücke aussieht?Eingang für Hidden Markov Modell-basierte Spracherkennungsprogramm

+0

http://en.cppreference.com/w/cpp/links/libs#Audio – macroland

+0

Es ist besser zu überprüfen, was bestehende Software tut –

Antwort

0

Der allgemeine Ansatz besteht darin, einen Eingangston in die Sequenz von Merkmalsvektoren (normalerweise MFCCs) umzuwandeln. Dieser Prozess wird allgemein in CMU Sphinx wiki beschrieben und ausführlich in HTK Book beschrieben. Vielleicht möchten Sie auch den universellen Zweck openSMILE toolkit studieren, um zu sehen, wie es in C++ gemacht wird.