2012-07-31 16 views
6

Wenn ich einen SVM auf einem lrge Trainingssatz am Training und wenn die Klassenvariable ist entweder wahr oder falsch wäre, die nur sehr wenige wahren Werte im Vergleich zu ihm Anzahl von falschen Werten im Trainingssatz das Trainingsmodell/Ergebnisse beeinflussen? Sollten sie gleich sein? Wenn mein Trainingssatz nicht die gleiche Verteilung von Wahr und Falsch hat, wie kümmere ich mich darum, dass mein Training so effizient wie möglich durchgeführt wird?Wie gehen Sie mit dem Datenungleichgewicht bei SVM um?

Antwort

3

Es ist in Ordnung, unausgeglichene Daten zu haben, weil die SVM in der Lage sein sollte, Fehlklassifikationsfehlern im Zusammenhang mit der weniger wahrscheinlichen Instanz (z. B. "True") einen größeren Nachteil zuzuordnen, als das gleiche Fehlergewicht zuzuweisen der unerwünschte Klassifikator, der der Mehrheit alles zuordnet. Sie werden jedoch wahrscheinlich bessere Ergebnisse mit ausgewogenen Daten erhalten. Alles hängt von Ihren Daten ab.

Sie könnten die Daten Skew künstlich ausgeglichenere Daten zu erhalten. Warum überprüfen Sie dieses Papier nicht: http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF.

2

Meine Erfahrung ist, dass Standard SVM Classifier wirklich auf unausgewogene Daten gut funktionieren nicht. Ich traf das für die C-SVM und es ist noch schlimmer für die Nu-SVM. Vielleicht möchten Sie einen Blick auf P-SVM werfen, die einen Modus bietet, der besonders für unsymmetrische Daten geeignet ist.

Verwandte Themen