2

Gibt es eine Möglichkeit, Entscheidungsbaum zu visualisieren/plotten, der entweder mit mllib oder ml library in pyspark erstellt wurde. Wie man Informationen wie die Anzahl der Datensätze in Blattknoten erhält. DankWie visualisiert man das Entscheidungsbaummodell/Objekt in pyspark?

+0

Verwendung von Python Grundstück pyspark Entscheidungsbaum ist auch in Ordnung. – Neo

Antwort

1

Zuerst müssen Sie model.toDebugString verwenden, um eine Ausgabe wie die auf Ihrem zufälliges Waldmodell zu erhalten:

"RandomForestClassificationModel (uid=rfc_6c4ceb92ba78) with 20 trees 
    Tree 0 (weight 1.0): 
    If (feature 0 <= 3="" 10="" 1.0)="" if="" (feature="" <="0.0)" predict:="" 0.0="" else=""> 6.0) 
     Predict: 0.0 
    Else (feature 10 > 0.0) 
     If (feature 12 <= 12="" 63.0)="" predict:="" 0.0="" else="" (feature=""> 63.0) 
     Predict: 0.0 
    Else (feature 0 > 1.0) 
    If (feature 13 <= 3="" 1.0)="" if="" (feature="" <="3.0)" predict:="" 0.0="" else=""> 3.0) 
     Predict: 1.0 
    Else (feature 13 > 1.0) 
     If (feature 7 <= 7="" 1.0)="" predict:="" 0.0="" else="" (feature=""> 1.0) 
     Predict: 0.0 
    Tree 1 (weight 1.0): 
    If (feature 2 <= 11="" 15="" 1.0)="" if="" (feature="" <="0.0)" predict:="" 0.0="" else=""> 0.0) 
     Predict: 1.0 
    Else (feature 15 > 0.0) 
     If (feature 11 <= 11="" 0.0)="" predict:="" 0.0="" else="" (feature=""> 0.0) 
     Predict: 1.0 
    Else (feature 2 > 1.0) 
    If (feature 12 <= 5="" 31.0)="" if="" (feature="" <="0.0)" predict:="" 0.0="" else=""> 0.0) 
     Predict: 0.0 
    Else (feature 12 > 31.0) 
     If (feature 3 <= 3="" 4.0)="" predict:="" 0.0="" else="" (feature=""> 4.0) 
     Predict: 0.0 
    Tree 2 (weight 1.0): 
    If (feature 8 <= 4="" 6="" 1.0)="" if="" (feature="" <="2.0)" predict:="" 0.0="" else=""> 10875.0) 
     Predict: 1.0 
    Else (feature 6 > 2.0) 
     If (feature 1 <= 1="" 36.0)="" predict:="" 0.0="" else="" (feature=""> 36.0) 
     Predict: 1.0 
    Else (feature 8 > 1.0) 
    If (feature 5 <= 4="" 0.0)="" if="" (feature="" <="4113.0)" predict:="" 0.0="" else=""> 4113.0) 
     Predict: 1.0 
    Else (feature 5 > 0.0) 
     If (feature 11 <= 11="" 2.0)="" predict:="" 0.0="" else="" (feature=""> 2.0) 
     Predict: 0.0 
    Tree 3 ... 

speichert es unter einer TXT-Datei dann verwenden: https://github.com/tristaneljed/Decision-Tree-Visualization-Spark

+0

Haben wir etwas in pyspark nur statt d3.js zu benutzen? Außerdem gibt model.toDebugString nicht an, wie viel Prozent der Daten in jeden Knoten fließen. – Neo

Verwandte Themen