2

Ich wollte adaboost und Entscheidungsbäume vergleichen. Als Beweis für das Prinzip, setze ich die Anzahl der Schätzer in adaboost zu 1 mit einem Entscheidungsbaum Klassifizierer als Standard, erwartet das gleiche Ergebnis als eine einfache Entscheidungsbaum.Warum ist Adaboost mit 1 Schätzer schneller als ein einfacher Entscheidungsbaum?

Ich habe tatsächlich die gleiche Genauigkeit bei der Vorhersage meiner Test-Etiketten. Jedoch ist die Anpassungszeit viel niedriger für adaboost, während die Testzeit ein bisschen höher ist. Adaboost scheint die gleichen Standardeinstellungen zu verwenden wie DecisionTreeClassifier, sonst wäre die Genauigkeit nicht genau gleich.

Kann jemand das erklären?

-Code

from sklearn.ensemble import AdaBoostClassifier 
from sklearn.tree import DecisionTreeClassifier 
from sklearn.metrics import accuracy_score 

print("creating classifier") 
clf = AdaBoostClassifier(n_estimators = 1) 
clf2 = DecisionTreeClassifier() 

print("starting to fit") 

time0 = time() 
clf.fit(features_train,labels_train) #fit adaboost 
fitting_time = time() - time0 
print("time for fitting adaboost was", fitting_time) 

time0 = time() 
clf2.fit(features_train,labels_train) #fit dtree 
fitting_time = time() - time0 
print("time for fitting dtree was", fitting_time) 

time1 = time() 
pred = clf.predict(features_test) #test adaboost 
test_time = time() - time1 
print("time for testing adaboost was", test_time) 

time1 = time() 
pred = clf2.predict(features_test) #test dtree 
test_time = time() - time1 
print("time for testing dtree was", test_time) 

accuracy_ada = accuracy_score(pred, labels_test) #acc ada 
print("accuracy for adaboost is", accuracy_ada) 

accuracy_dt = accuracy_score(pred, labels_test) #acc dtree 
print("accuracy for dtree is", accuracy_dt) 

Ausgabe

('time for fitting adaboost was', 3.8290421962738037) 
('time for fitting dtree was', 85.19442415237427) 
('time for testing adaboost was', 0.1834099292755127) 
('time for testing dtree was', 0.056527137756347656) 
('accuracy for adaboost is', 0.99089874857792948) 
('accuracy for dtree is', 0.99089874857792948) 
+1

Was ist die Dimension von 'features_train'? Wenn ich Ihr Experiment mit 100 3-dimensionalen Proben wiederhole, ist der Entscheidungsbaum etwa 10 mal schneller als Adaboost. –

+1

Versuchen Sie auch, einen Profiler zu verwenden. IPythons magischer "% Prun" ist eine gute Option. –

+0

Features_train hat 16000 Funktionen von 3785 Proben. Ich bin daran interessiert, was der konzeptionelle Unterschied zwischen diesen beiden wäre. In welcher Weise unterscheidet sich der von ihnen verwendete Algorithmus? Ich würde erwarten, dass AdaBoostClassifier mit 1 Schätzer genau das macht, was DecisionTreeClassifier tut. – galliwuzz

Antwort

2

Ich habe versucht, Ihr Experiment in IPython zu wiederholen, aber ich sehe nicht so einen großen Unterschied:

from sklearn.ensemble import AdaBoostClassifier 
from sklearn.tree import DecisionTreeClassifier 
import numpy as np 
x = np.random.randn(3785,16000) 
y = (x[:,0]>0.).astype(np.float)  
clf = AdaBoostClassifier(n_estimators = 1) 
clf2 = DecisionTreeClassifier() 
%timeit clf.fit(x,y) 
1 loop, best of 3: 5.56 s per loop 
%timeit clf2.fit(x,y) 
1 loop, best of 3: 5.51 s per loop 

Versuchen Sie, einen Profi zu verwenden Filer oder wiederholen Sie das Experiment.

Verwandte Themen