2017-04-15 2 views
0

ich zwei Datensätze in Funken beigetreten sind (pySpark) und die Ausgabe sieht gefällt diesesPython: --- URL-Pfad in Cloudera VM eine verbundene Datenmenge Speichern

 (u'SomeThing', (u'ABC', u'500')) 

ich Folgendes tun möchten: definieren die eine Funktion extrahiert und gibt nur ABC, 500. ich eine Funktion wie diese

  def extract_lasttwo_cols(three_cols): 
      a,b,c = three_cols.split(',') 
      return b,c 

aber diese Funktion führt zu einem Fehler schrieb „Tupel-Objekt hat kein Attribut split()“

So, Ich möchte dieses verbundene Dataset als eine Textdatei in einem der Ordner auf dem HDFS auf Cloudera VM speichern. Dies ist eine VM mit einem einzelnen Knoten. Ich erhalte Syntaxfehler auf diesem Code

 joinedatasets.saveAsTextFile("joinSet.txt") 

Ich weiß, dass wir es mit einem HDFS URL speichern müssen. Meine Frage Wie finden wir die HDFS-URL zu der Datei, die ich speichern muss, und ist es die richtige Methode zum Speichern?

Antwort

0

Nun, ich habe gerade versucht, die folgende und es funktionierte, aber

  joinedatasets.saveAsTextFile("input/joinSet") 

Die Dateien etwas anders, die als fünf txt-Dateien jeweils die Namen werden als

   part-00000, 
       part-00001 until part-00005 
gespeichert haben
Verwandte Themen