2017-07-17 4 views
0

Ich habe ein Modell aus einem Dataset erstellt und versucht, den besten Algorithmus basierend auf cohen_kappa-Score und Vorhersagegenauigkeit zu finden. Ich führe es gegen verschiedene Algorithmen, da die Art von Daten, die ich bekommen werde, nicht bekannt ist, also den besten Algorithmus durch Vergleichen ihrer Kappa und Genauigkeit zu finden. Meine Daten werden mit 10 Falzen validiert.Vorhersage für Klassifizierung ergibt falsches Ergebnis scikit learn

Ich habe einen Vergleich zwischen Random Forest, Entscheidungsbaum, SGDClassifier, Perceptron, Passive Aggressive, Logistische Regression, Gradient Boosting, Naive Bayes, KNeighbors.

Für mein Beispiel habe ich Random Forest als besten Algorithmus zur Klassifizierung mit Kappa = 1 und Genauigkeit = 0,94

war meine Klassifizierung 2 Klasse Klassifizierung mit Bedingung wie Response> 200

Nun, wenn Ich versuche eine Vorhersage zu erstellen, für einige abhängige Variablenwerte bekomme ich eine korrekte Vorhersage, aber für einige ist es völlig falsch.

Ich habe alle verschiedenen Algorithmen ausprobiert, aber die Vorhersageergebnisse sind sehr inkonsistent.

Dank

+0

Können Sie Ihre Daten hochladen? – sera

+0

Eine der Beispieldaten, die ich habe, ist beigefügt. Aber dieser hat Kappa = 0 für Random Forest mit einer Genauigkeit von 0,97. – newToML

+0

Tut mir leid, drücken Sie Enter, bevor Sie meine Antwort beendet haben. Eines der Beispieldaten, die ich habe, ist beigefügt. Aber dieser hat Kappa = 0 für Random Forest mit einer Genauigkeit von 0,97. Anfügen der Beispieldatendatei, mit der ich das Modell erstellt habe. Ich versuche Dataset zu regenerieren, wo Kappa-Wert 1 war. Mit diesem Dataset erhalte ich richtigen Wert für die Vorhersage für eine Dateneingabe, aber falsche Vorhersage für andere Eingabe. Anfügen aller 3 Arff-Dateien. – newToML

Antwort

0

Sie müssen Merkmalswerte der falschen Vorhersage genau hinsehen. Möglicherweise haben Sie widersprüchliche Daten in Ihrem Datensatz. Wenn Sie beispielsweise Beobachtungen und Beschriftungen wie diese haben, werden Sie nie eine 100% ige Genauigkeit erhalten, egal wie sehr Sie es versucht haben, wie Sie Ihre Algorithmen kreuzweise validiert oder gestapelt haben. 75% Genauigkeit ist hier die höchste Punktzahl.

0 => 0 
0 => 0 
0 => 0 
0 => 1 <- this sample have wrong label 
1 => 1 
1 => 1 
1 => 1 
1 => 0 <- this sample have wrong label 
Verwandte Themen