Wenn ich einen SVM auf einem lrge Trainingssatz am Training und wenn die Klassenvariable ist entweder wahr oder falsch wäre, die nur sehr wenige wahren Werte im Vergleich zu ihm Anzahl von falschen Werten im Trainingssatz das Trainingsmodell/Ergebnisse beeinflussen? Sollten sie gleich sein? Wenn mein Trainingssatz nicht die gleiche Verteilung von Wahr und Falsch hat, wie kümmere ich mich darum, dass mein Training so effizient wie möglich durchgeführt wird?Wie gehen Sie mit dem Datenungleichgewicht bei SVM um?
Antwort
Es ist in Ordnung, unausgeglichene Daten zu haben, weil die SVM in der Lage sein sollte, Fehlklassifikationsfehlern im Zusammenhang mit der weniger wahrscheinlichen Instanz (z. B. "True") einen größeren Nachteil zuzuordnen, als das gleiche Fehlergewicht zuzuweisen der unerwünschte Klassifikator, der der Mehrheit alles zuordnet. Sie werden jedoch wahrscheinlich bessere Ergebnisse mit ausgewogenen Daten erhalten. Alles hängt von Ihren Daten ab.
Sie könnten die Daten Skew künstlich ausgeglichenere Daten zu erhalten. Warum überprüfen Sie dieses Papier nicht: http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF.
Meine Erfahrung ist, dass Standard SVM Classifier wirklich auf unausgewogene Daten gut funktionieren nicht. Ich traf das für die C-SVM und es ist noch schlimmer für die Nu-SVM. Vielleicht möchten Sie einen Blick auf P-SVM werfen, die einen Modus bietet, der besonders für unsymmetrische Daten geeignet ist.
- 1. Wie gehen Sie mit dem Entwicklerzugriff auf Windows-Server um?
- 2. Wie gehen Sie mit kleinen Datensätzen um?
- 3. Wie gehen Sie mit Laufzeitdatentypen um?
- 4. Wie gehen Sie mit Benutzereinstellungen um?
- 5. Wie gehen Sie mit E-Mails um?
- 6. Wie gehen Sie mit fehlenden Daten mit numpy/scipy um?
- 7. Wie gehen Sie mit print() um, wenn Sie mit dem Debuggen/Codieren fertig sind
- 8. Wie gehen verschiedene Sprachen mit dem "dangling else" um?
- 9. Wie gehen Sie mit dem Konflikt zwischen ActiveSupport :: JSON und dem JSON-Juwel um?
- 10. Wie gehen Sie mit "Viele Namen für 1 Person" um?
- 11. So gehen Sie mit dem Knopf
- 12. Wie gehen andere Entwicklungsteams mit Versionsnummern um?
- 13. Wie gehen Sie mit Audit-Logging mit SSRS um?
- 14. Wie gehen Sie am besten mit Tests mit Daten um?
- 15. Wie gehen Sie mit dem Problem "Zu viele Dateien" um, wenn Sie in Bash arbeiten?
- 16. Wie gehen Sie mit SSL in der Entwicklung um?
- 17. Wie gehen Sie mit den fetchxml-Ergebnisdaten um?
- 18. Wie gehen Prozesse mit Signalen um?
- 19. Wie gehen Sie mit Fehlern von AJAX-Anrufen um?
- 20. Wie gehen Sie mit Präzisionsproblemen in Matlab um?
- 21. Wie gehen Sie in Spring MVC mit Ajax-Anfragen um?
- 22. Wie gehen Sie mit der Planung/Deadlines um Programmierer herum?
- 23. Wie gehen Sie mit Assoziationen zwischen Aggregaten in DDD um?
- 24. Wie gehen Sie mit der Zeitzonen-Differenzberechnung in PHP um?
- 25. Wie gehen Sie mit "Super" Generika in Java um?
- 26. Wie gehen Sie mit Strings um, die strukturiert sind?
- 27. Wie gehen Sie mit Änderungsverfolgung in MVVM um?
- 28. Wie gehen Sie mit Potrait- und Landschaftsansichten um?
- 29. Wie gehen Sie mit DDD und EF4 um?
- 30. Wie gehen Sie mit großen Wenn-Bedingungen um?