2017-10-25 1 views
-2

Ich versuche, meine Daten in Python mit sklearn.neighbors.KNeighborsClassifier zu reinigen. In der Fit-Funktion des Klassifikators habe ich Trainingsdaten in Form einer von Pandas erzeugten DataTable aus einer csv Datei zur Verfügung gestellt.sklearn.neighbors.KNeighborsClassifier konnte Zeichenfolge nicht in Gleitkomma konvertieren

Die Fit-Funktion gibt einen Fehler

could not convert string to float : "training data's first cell value". 

Wie kann ich die Trainingsdaten von tabellarischer Form von Zeichenfolge verwenden?

Ich arbeite am Kaggle Titanic-Datensatz.

+0

sind Sie sicher, dass alle Spalten in dem Datenrahmen numerisch sind? – yesemsanthoshkumar

+0

Nein, die Spalten sind Strings und ich bin daran interessiert, meinen Klassifikator mit den String-Daten zu trainieren. –

+0

Sie können es nicht direkt mit Zeichenfolgen trainieren. Sie müssen die Textdaten in numerische Werte umwandeln. Algorithmen können Zahlen nur verstehen. Zeigen Sie uns Beispieldaten und was Sie bisher gemacht haben, um besser zu helfen. – yesemsanthoshkumar

Antwort

1

Sie müssen eine Metrik für Ihren Klassifikator definieren. Ansonsten hat das Clustering keine Ahnung, was er mit Strings zu tun hat. Schauen Sie sich diesen Thread, der wahrscheinlich das gleiche ist:

https://stackoverflow.com/a/35283104/2151532

Verwandte Themen