1

Ich habe einen Entscheidungsbaum mit sklearn erstellt.Entscheidungsbaum hat 2 ähnliche Knoten

from sklearn import tree 
clf = tree.DecisionTreeClassifier(max_depth=3) 
clf = clf.fit(X, Y) 

Parameter in Datenrahmen X - 'Company size', 'Industry_other', 'Account size', 'Country' und 'Use case 1'.

Ich erhalte 2 Ähnliche Knoten, wenn der Baum export_graphviz mit sichtbar zu machen versucht:

output from export_graphviz

Was ist der Grund für das Erhalten ähnlichen Knoten? Wie lese ich diesen Baum?

+0

Sie haben diese Knoten auf der gleichen Ebene, so ist alles in Ordnung. Dies bedeutet nur, dass für "Industry_Other" sowohl größer als auch kleiner als 0,5 die Entscheidungsregel für die "Unternehmensgröße" ("<= 1,5") gleich ist. – m0nhawk

Antwort

1

Um die Erklärung zu vereinfachen, erkläre ich es mit Buchstaben. Ihr Baum sieht wie folgt aus:

A -> B 
| 
\-> C -> D -> F 
    |  \-> G 
    | 
     \-> E -> H 
      \-> I 

Mit A, Ihre Wurzel Knoten und D und E die Knoten, die Sie sagen, sind ähnliche Knoten.

In Ihrem Diagramm ist der Knoten A zweigeteilt, B und C. Datenproben mit Account size < 19969 gehen zu C und ansonsten zu B.

Unter den Proben, die zu C, diejenigen, die mit Industry other <= 1.5 ankommen gehen zu E und andere gehen zu D. Hier sehen E und identisch aus, da sie dieselbe Regel gelernt haben, diese Regel jedoch auf verschiedene Datenstichproben angewendet wird.

Dies ist aus den Proben, die diejenigen, die mit company size < 1.5-I und andere zu H gehen zu E kommen, und etwas Ähnliches gilt für D.

Ich hoffe, es ist klarer und ich habe dich nicht mehr verwirrt.

Im Wesentlichen haben sie die gleiche Regel lernen, aber auf verschiedene Proben anwenden. Mit anderen Worten, sowohl als auch E haben gelernt, dass die beste Regel zum Trennen von zwei Samples, die zu ihnen kommen, die gleiche ist. Die Proben, die zu ihnen kommen, haben jedoch eine andere Natur (verschiedene Industry_other um genau zu sein).

Es kann auch irgendwie verstanden werden, dass Company_size hilft, zwischen Proben unabhängig von ihrer Industry_other zu unterscheiden.