2016-12-15 3 views
0

Ich versuche eine schnelle Möglichkeit zu finden, eine Affinitätsanalyse für transaktionale Warenkorbdaten mit einigen Millionen Zeilen durchzuführen.Market Basket Analyse in R mit Hadoop

Was ich bisher getan:

  • einen R-Server auf der Spark-& Hadoop auf Wolke geführt (Azure HDInsight)
  • geladenen Daten auf HDFS
  • mit RevoScaleR Erste Schritte

Allerdings blieb ich beim letzten Schritt stecken. Soweit ich weiß, kann ich die Daten nicht mit einer Funktion verarbeiten, die nicht in RevoScaleR enthalten ist.

Hier ist der Code für die Daten auf HDFS Zugriff:

bigDataDirRoot <- "/basket" 
mySparkCluster <- RxSpark(consoleOutput=TRUE) 
rxSetComputeContext(mySparkCluster) 
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort) 
inputFile <-file.path(bigDataDirRoot,"gunluk") 

Also meine infputFile ist eine CSV in einem Azure Blob bereits in/Korb erstellt/Gunluk

gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS) 

Danach läuft, Ich kann die Daten mit head (gunluk_data) sehen.

Wie kann ich verwalten gunluk_data mit arules Paket Funktionen zu nutzen. Ist das möglich?

Wenn nicht, ist es möglich, eine CSV-Datei in HDFS mit regulären R-Paketen (d. H. Arules) zu verarbeiten?

Antwort

0

In arules können Sie read.transactions verwenden, um die Daten aus Dateien zu lesen und write.PMML, um Regeln/itemsets auszugeben.

Verwandte Themen