2017-11-27 1 views
-1

Was machen Menschen beim Umgang mit langen Audio-Clips (2min-5min, 44.1khz) bei maschinellen Lernaufgaben wie Musikklassifizierung?Wie werden lange Audioclips beim maschinellen Lernen gehandhabt?

Gibt es irgendwelche Methoden außer Downsampling, die dazu beitragen, die Dimensionalität von Audiodaten zu reduzieren?

+0

Sie werden ein bisschen mehr spezifisch sein müssen. –

Antwort

1

Normalerweise werden Frequenzfunktionen wie Spektrogramm oder MFCC extrahiert und dann klassifiziert. Sie haben weniger Werte als Rohaudio und sind daher einfacher zu analysieren.

Sie können einige Visualisierungen von Spektrogrammen und MFCC finden Sie hier (in Bezug auf Sprache, sondern Skalen):

https://www.kaggle.com/davids1992/speech-visualization-and-exploration

Beachten Sie, dass irgendwie Dimensionalität der Daten in CNN reduziert bündeln.

So finden Sie über Spektralanalyse. Sie arbeiten selten mit rohen Wellen, obwohl sie auch wie WaveNet, zu arbeiten beginnen:

https://deepmind.com/blog/wavenet-generative-model-raw-audio/

Verwandte Themen