ich zwei Datensätze in Funken beigetreten sind (pySpark) und die Ausgabe sieht gefällt diesesPython: --- URL-Pfad in Cloudera VM eine verbundene Datenmenge Speichern
(u'SomeThing', (u'ABC', u'500'))
ich Folgendes tun möchten: definieren die eine Funktion extrahiert und gibt nur ABC, 500. ich eine Funktion wie diese
def extract_lasttwo_cols(three_cols):
a,b,c = three_cols.split(',')
return b,c
aber diese Funktion führt zu einem Fehler schrieb „Tupel-Objekt hat kein Attribut split()“
So, Ich möchte dieses verbundene Dataset als eine Textdatei in einem der Ordner auf dem HDFS auf Cloudera VM speichern. Dies ist eine VM mit einem einzelnen Knoten. Ich erhalte Syntaxfehler auf diesem Code
joinedatasets.saveAsTextFile("joinSet.txt")
Ich weiß, dass wir es mit einem HDFS URL speichern müssen. Meine Frage Wie finden wir die HDFS-URL zu der Datei, die ich speichern muss, und ist es die richtige Methode zum Speichern?