2016-08-10 2 views
3
verwenden

Ich arbeite an einem moderaten Datensatz (train_data). Es gibt mehr 124 Variablen und 50.00.000 Beobachtungen. Bei kategorialen Variablen habe ich Funktion Hashing auf sie durch hashed.model.matrix Funktion in R.Wie H2o auf Feature-Hash-Matrix in R

## feature hashing 
b <- 2^22 
f <- ~ .-1 
X_train <- hashed.model.matrix(f, train_data, hash.size=b) 

So, als Folge verwendet wird, habe ich eine große dgCmatrix bekam (eine spärliche Matrix) als Ausgang (X_train) . Wie kann ich H2o-Wrapper auf dieser Matrix verwenden und verschiedene in H2o verfügbare Algorithmen verwenden? Verwendet H2o-Wrapper Sparse-Matrix (dgCmatrix). Jeder Link/jedes Beispiel einer solchen Verwendung wird hilfreich sein. Danke im Voraus.

Wir freuen uns in H2o Umgebung zu importieren X_train dollowing Art von Schritten

# initialize connection to H2O server 
    h2o.init(nthreads = -1) 
train.hex <- h2o.uploadFile('./X_train', destination_frame='train') 

# list of features for training 
feature.names <- names(train.hex) 

# train random forest model, use ntrees = 500 
drf <- h2o.randomForest(x=feature.names, y='outcome', training_frame,train.hex, ntrees =500) 

Antwort

2

Sie Ihre Sparse Matrix retten könnte zu tun spärlichen Format svmlight, dann

verwenden
train.hex <- h2o.uploadFile('./X_train', parse_type = "SVMLight", destination_frame='train') 

svmlight spärlichen Format wird auch von h2o.importFile() erkannt, die ein parallelisierter Leser ist und Informationen vom Server von einem vom Client angegebenen Speicherort abruft.

train.hex <- h2o.importFile('./X_train', destination_frame='train') 
+0

Kennen Sie den Befehl zum Speichern in svmlight Ersatzformat? –

+0

ja das zweite Beispiel sollte h2o.importFile gesagt haben, danke für das Abfangen. Ich werde es bearbeiten. – Lauren