Ich suche nach einer Anleitung, welche Techniken/Algorithmen ich untersuchen sollte, um das folgende Problem zu lösen. Ich habe derzeit einen Algorithmus, der ähnlich klingende MP3s mit akustischen Fingerabdrücken gruppiert. In jedem Cluster habe ich die verschiedenen Metadaten (Song/Künstler/Album) für jede Datei. Für diesen Cluster möchte ich die "besten" Song-/Künstler-/Album-Metadaten auswählen, die mit einer vorhandenen Zeile in meiner Datenbank übereinstimmen, oder wenn es keine beste Übereinstimmung gibt, beschließen Sie, eine neue Zeile einzufügen.Machine Learning-Algorithmus für die Datenklassifizierung.
Für einen Cluster, ist es in der Regel einige korrekten Metadaten, aber einzelne Dateien haben viele Arten von Problemen:
- Künstler/Songs sind völlig falsch benannt oder mispelled nur leicht
- der Künstler/Song/Album fehlt, aber der Rest der Informationen ist dort
- das Lied ist eigentlich eine Live-Aufnahme, aber nur einige der Dateien im Cluster sind als solche gekennzeichnet.
- kann es nur sehr wenig Metadaten sein, in einigen Fällen nur die Dateinamen, die Künstler sein könnte - song.mp3 oder Künstler - Album - song.mp3 oder eine andere Variation Werke
Ein einfacher Entscheidungsalgorithmus ziemlich gut, aber ich hätte gerne etwas, das ich auf einer großen Datenmenge trainieren könnte, die mehr Nuancen aufgreifen könnte als das, was ich gerade habe. Alle Links zu Papieren oder ähnlichen Projekten würden sehr geschätzt werden.
Danke!
Große Frage - Ich bin interessiert zu sehen, was Leute hier kommen. Ich frage mich, ob vielleicht eine Art Entscheidungsbaum-Lernansatz helfen könnte, den "besten" Song in einem Cluster zu identifizieren? Natürlich können die Wiki-Seiten zu unbeaufsichtigtem Lernen oder maschinellem Lernen Ihnen mehr Inspiration geben. – awshepard
Versuchen Sie, einige der Vorträge hier zu lesen: [Machine Learning Course] (https://www.coursera.org/course/ml), da sie viele anwendbare Techniken abdecken. – mlepage