2016-05-02 13 views
0

Wie kann ich Entscheidungsbaum Grafik verwenden, um die signifikanten Variablen zu bestimmen, ich weiß, welche größte Informationsgewinn in der Wurzel des Baumes sein soll, was bedeutet, dass kleine Entropie, so ist dies mein Diagramm, wenn ich will wissen, welche Variablen von Bedeutung sind, wie kann ichEntscheidungsbaum für signifikante Variablen

enter image description here

Antwort

2

interpretieren Was Sie erhebliche bedeutet das? An jedem Knoten hat die Variable den Kontext mit der größten Bedeutung ausgewählt und angenommen, dass die Auswahl nach Informationsgewinn tatsächlich funktioniert (dies ist nicht immer der Fall). Zum Beispiel ist BB am Knoten 11 der wichtigste Diskriminator, der gegeben ist mit AA> 20.

Offensichtlich sind AA und BB am nützlichsten, wenn man annimmt, dass die Auswahl durch Informationsgewinn den besten Weg zur Partitionierung der Daten liefert. Der Rest gibt weitere Verfeinerung. C und N wären die nächsten.

Was Sie fragen sollten, ist: Soll ich alle Knoten behalten?

Die Antwort hängt von vielen Dingen ab und es gibt wahrscheinlich keine beste Antwort. Ein Weg wäre, die Gesamtzahl der Fälle jedes Blattes zu verwenden und sie zusammenzuführen.

Nicht sicher, wie ich dies bei Ihrem Bild tun würde. Es ist nicht wirklich klar, was an den Blättern gezeigt wird und was "n" ist. Auch nicht sicher, was "p" ist.

+1

AA, N, BB das sind Attribute (Variablen) basierend auf diesem Baum Ich möchte sagen, dass diese Attribute signifikant sind –

+1

Ich habe das. Was benötigt wird, ist eine kurze Beschreibung jedes Elements im Bild und was gezeigt wird. Zum Beispiel bedeutet p <0,001 was genau? 'p' ist Entropie ?, Wahrscheinlichkeit? andere?. Die Blätter zeigen was? Was ist n? Zahl der Fälle? Wenn die Seitenachse jedes Blattes Klasse ist, wie erhält man dann eine Verteilung von Klassen in einem einzigen Fall (wenn n == 1 bedeutet, dass in Knoten 17). – DAV

+1

alle von ihnen in diesem Baum sind Variablen, die nicht von ihnen sind Klasse tut mir leid, aber ich verstehe p ist Wahrscheinlichkeit bin ich richtig? denn in der Formel des Informationsgewinns haben wir E, was Entropie ist und wir haben p welche Wahrscheinlichkeit –

Verwandte Themen