2017-09-22 1 views
1

Ich habe eine Spark DataFrame, train_tbl, die 48 verschiedene Spalten enthält. Ich möchte ein zufälliges Gesamtstrukturmodell mit dem sparklyr-Paket trainieren, das eine der 48 Spalten als response-Variable und alle anderen Spalten als features verwendet. Gibt es eine Möglichkeit, anzugeben, dass ich alle Felder außer loan_status als Features verwenden möchte, ohne alle 47 Feldnamen eingeben zu müssen?sparklyr: Wählen Sie alle Spalten außer Antwort beim Training Modell

ml_random_forest(x = train_tbl, 
       response = "loan_status", 
       features = call all fields EXCEPT "loan_status", 
       num.trees = 10L, 
       type = "classification") 

Antwort

1

Dies sollte funktionieren.

ml_random_forest(x = train_tbl, 
       response = "loan_status", 
       features = names(train_tbl)[which(names(train_tbl)!="loan_status")], 
       num.trees = 10L, 
       type = "classification") 
+1

@ waskuf, die nicht funktionierten, aber man hat mich auf jeden Fall in die richtige Richtung ... Ich begann mit der Syntax für 'features' und bearbeitet es mit dem folgenden, die funktioniert:' COLNAMES (train_tbl%> % select (-loan_status)) ' – bshelt141

+0

Meine Antwort wurde aktualisiert, die eckigen Klammern müssen außerhalb der Namen sein(). Sollte jetzt funktionieren. – waskuf

Verwandte Themen