eine einfache CSV-Datei ist:RandomForestClassfier.fit(): Valueerror: kann nicht konvertieren Zeichenfolge Gegeben zu schweben
A,B,C
Hello,Hi,0
Hola,Bueno,1
Offensichtlich ist die reale Datenmenge ist weitaus komplexer als dies, aber diese gibt den Fehler. Ich versuche, einen zufälligen Wald Klassifikator für ihn zu bauen, etwa so:
cols = ['A','B','C']
col_types = {'A': str, 'B': str, 'C': int}
test = pd.read_csv('test.csv', dtype=col_types)
train_y = test['C'] == 1
train_x = test[cols]
clf_rf = RandomForestClassifier(n_estimators=50)
clf_rf.fit(train_x, train_y)
Aber ich gerade diese Zurückverfolgungs erhalten, wenn fit() aufgerufen wird:
ValueError: could not convert string to float: 'Bueno'
Scikit-Learn-Version 0.16.1 .
Danke. Ich habe schließlich eine Lösung mit DictVectorizer gefunden. Ich bin etwas überrascht, dass es keine bessere Dokumentation über den Umgang mit solchen Problemen gibt. Ich würde aufheben, wenn ich hier genug Karma hätte. – nilkn