Ich versuche eine schnelle Möglichkeit zu finden, eine Affinitätsanalyse für transaktionale Warenkorbdaten mit einigen Millionen Zeilen durchzuführen.Market Basket Analyse in R mit Hadoop
Was ich bisher getan:
- einen R-Server auf der Spark-& Hadoop auf Wolke geführt (Azure HDInsight)
- geladenen Daten auf HDFS
- mit RevoScaleR Erste Schritte
Allerdings blieb ich beim letzten Schritt stecken. Soweit ich weiß, kann ich die Daten nicht mit einer Funktion verarbeiten, die nicht in RevoScaleR enthalten ist.
Hier ist der Code für die Daten auf HDFS Zugriff:
bigDataDirRoot <- "/basket"
mySparkCluster <- RxSpark(consoleOutput=TRUE)
rxSetComputeContext(mySparkCluster)
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort)
inputFile <-file.path(bigDataDirRoot,"gunluk")
Also meine infputFile ist eine CSV in einem Azure Blob bereits in/Korb erstellt/Gunluk
gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS)
Danach läuft, Ich kann die Daten mit head (gunluk_data) sehen.
Wie kann ich verwalten gunluk_data mit arules Paket Funktionen zu nutzen. Ist das möglich?
Wenn nicht, ist es möglich, eine CSV-Datei in HDFS mit regulären R-Paketen (d. H. Arules) zu verarbeiten?