2017-12-27 8 views
-1

Ich habe einen Datensatz (basierend auf Millionen Songdatensätzen), auf dem ich Genre-Klassifizierung vornehmen muss. Im Folgenden finden Sie die Verteilung der verschiedenen Genre-Klassen im Dataset.Wann wird ein Datensatz unsymmetrisch genannt?

Genre Count %age 

1. Rock 115104 39.94364359 
2. Pop  47534 16.49535337 
3. Electronic 24313 8.437150809 
4. Jazz 16465 5.713720564 
5. Rap  15347 5.325749741 
6. RnB 13769 4.778148706 
7. Country 13509 4.687922933 
8. Reggae 8739 3.032627027 
9. Blues 7075 2.455182083 
10. Latin 7042 2.44373035 
11. Metal 6257 2.171317921 
12. World 4624 1.604630664 
13. Folk 3661 1.270448283 
14. Punk 3479 1.207290242 
15. New Age 1248 0.433083709 

Möchten Sie diese Daten unausgewogen nennen? Ich habe versucht, herumzulesen, aber ich habe festgestellt, dass Leute Datensätze beschreiben, die nicht ausgewogen sind, wenn eine der Klassen 99% des Datensatzes ausmacht, und es sich um ein binäres Klassifizierungsproblem handelt. Nicht sicher, ob das obige Set in diese Kategorie fällt. Bitte helfen Sie. Ich bin nicht in der Lage, die Klassifizierung richtig zu machen und ein Anfänger kann nicht entscheiden, ob es die Daten oder meine Naivität sind. Dies ist eine der Hypothesen, die ich validieren muss und muss.

Antwort

0

Im Allgemeinen gibt es keine strenge Definition von unausgeglichenen Datensätzen, aber wenn die kleinste Klasse 10x kleiner als die größte Klasse ist, dann ist es generell eine gute Idee, sie als unausgeglichen zu bezeichnen.

In Ihrem Fall ist die kleinste Klasse tatsächlich 100x kleiner als die größte, also können Sie sie sogar auf Ihre Berücksichtigung von "99-1" für die binäre Klassifizierung abbilden. Wenn Sie nur danach fragen, zwischen New Age und Rock zu unterscheiden, werden Sie am Ende mit einem Ungleichgewicht von 99-1 enden, so dass Sie erwarten können, dass Probleme, die für eine unausgewogene Klassifizierung typisch sind, in Ihrem Projekt erscheinen.

Verwandte Themen