Ich bin völlig neu zu maschinellen Lernen, ich spiele derzeit mit MNIST Machine Learning, RandomForestClassifier verwenden.Erhalten Panda-Serie von csv
Ich benutze Sklearn und Panda. Ich habe einen Schulungs-CSV-Datensatz.
import pandas as pd
import numpy as np
from sklearn import model_selection
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import LinearSVC
from sklearn.linear_model import SGDClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
train = pd.read_csv("train.csv")
features = train.columns[1:]
X = train[features]
y = train['label']
user_train = pd.read_csv("input.csv")
user_features = user_train.columns[1:]
y_train = user_train[user_features]
user_y = user_train['label']
X_train, X_test, y_train, y_test = model_selection.train_test_split(X/255.,y,test_size=1,random_state=0)
clf_rf = RandomForestClassifier()
clf_rf.fit(X_train, y_train)
y_pred_rf = clf_rf.predict(X_test)
acc_rf = accuracy_score(y_test, y_pred_rf)
print("pred : ", y_pred_rf)
print("random forest accuracy: ",acc_rf)
Ich habe den aktuellen Code, der gut funktioniert. Er nimmt den Trainingssatz, teilt und nimmt ein Element zum Testen und macht die Vorhersage.
Was ich jetzt will, ist die Testdaten von einer Eingabe zu verwenden, ich habe eine neue CSV namens "input.csv", und ich möchte den Wert in diesem csv voraussagen.
Wie kann ich die model_selection.train_test_split durch meine Eingabedaten ersetzen? Ich bin sicher, dass die Antwort sehr offensichtlich ist, und ich habe nichts gefunden.
Haben Sie das Modell neu trainieren wollen .csv als Ihre Testdaten? –