-1

Ich bin neu in Python und Machine Learning. Ich habe den Datensatz, der 581012 Datensätze und 54 Spalten enthält. Ich versuche, die Daten 80 20 80% für das Training und 20% für das Testen zu teilen. Ich benutze die GridSearchCV, um eine Kreuzvalidierung durchzuführen und den besten Parameter zu finden. Da die Daten zu groß sind, führe ich die Anwendung mehr als einen Tag aus, kann aber die Ergebnisse nicht abrufen. Ich halte es für möglich, zu wissen, wie groß die maximale Größe des Trainingssets ist, das der Klassifikator zulässt. Im Folgenden finden Sie mir AusführungscodeWie finde ich die größte Trainingseinheit, die der Klassifikator erlaubt?

parameters = {'max_depth' :range(1,21)} 
print parameters 
clf = GridSearchCV(tree.DecisionTreeClassifier(), parameters, cv=10, n_jobs=-1) 
clf.fit(X,y) 

tree_model = clf.best_estimator_ 
import pickle 
s = pickle.dumps(tree_model) 
print(clf.best_score_, clf.best_params_) 

Antwort

Verwandte Themen