Was machen Menschen beim Umgang mit langen Audio-Clips (2min-5min, 44.1khz) bei maschinellen Lernaufgaben wie Musikklassifizierung?Wie werden lange Audioclips beim maschinellen Lernen gehandhabt?
Gibt es irgendwelche Methoden außer Downsampling, die dazu beitragen, die Dimensionalität von Audiodaten zu reduzieren?
Sie werden ein bisschen mehr spezifisch sein müssen. –