Um die Erklärung zu vereinfachen, erkläre ich es mit Buchstaben. Ihr Baum sieht wie folgt aus:
A -> B
|
\-> C -> D -> F
| \-> G
|
\-> E -> H
\-> I
Mit A
, Ihre Wurzel Knoten und D
und E
die Knoten, die Sie sagen, sind ähnliche Knoten.
In Ihrem Diagramm ist der Knoten A
zweigeteilt, B
und C
. Datenproben mit Account size < 19969
gehen zu C und ansonsten zu B
.
Unter den Proben, die zu C
, diejenigen, die mit Industry other <= 1.5
ankommen gehen zu E
und andere gehen zu D
. Hier sehen E
und identisch aus, da sie dieselbe Regel gelernt haben, diese Regel jedoch auf verschiedene Datenstichproben angewendet wird.
Dies ist aus den Proben, die diejenigen, die mit company size < 1.5
-I
und andere zu H
gehen zu E
kommen, und etwas Ähnliches gilt für D
.
Ich hoffe, es ist klarer und ich habe dich nicht mehr verwirrt.
Im Wesentlichen haben sie die gleiche Regel lernen, aber auf verschiedene Proben anwenden. Mit anderen Worten, sowohl als auch E
haben gelernt, dass die beste Regel zum Trennen von zwei Samples, die zu ihnen kommen, die gleiche ist. Die Proben, die zu ihnen kommen, haben jedoch eine andere Natur (verschiedene Industry_other
um genau zu sein).
Es kann auch irgendwie verstanden werden, dass Company_size
hilft, zwischen Proben unabhängig von ihrer Industry_other
zu unterscheiden.
Sie haben diese Knoten auf der gleichen Ebene, so ist alles in Ordnung. Dies bedeutet nur, dass für "Industry_Other" sowohl größer als auch kleiner als 0,5 die Entscheidungsregel für die "Unternehmensgröße" ("<= 1,5") gleich ist. – m0nhawk