Unten ist das Python-Skript, das ich zum Schreiben in HDFS verwende. RDD ist ein Paar RDD. Das Skript funktioniert gut, aber es erstellt einen Eintrag als Tupel in HDFS.Ist ist es möglich, das Tupel zu entfernen und nur durch Kommas getrennte Einträge in HDFS zu erstellen.Speichern Sie die Datei in HDFS von einem Paar RDD
import sys
from pyspark import SparkContext
if len(sys.argv) < 2:
print 'Insufficient arguments'
sys.exit()
sc = SparkContext()
initialrdd1 = sc.textFile(sys.argv[1])
finalRDD1 = initialrdd1.map(lambda x:x.split(',')).map(lambda x :(x[1],x[0])).sortByKey()
print finalRDD1.getNumPartitions()
finalRDD1.saveAsTextFile('/export_dir/result3/')
Datei in HDFS Speicherung ist in folgendem Format
(u'Alpha', u'E03')
(u'Beta', u'E02')
(u'Gamma', u'E05')
(u'Delta', u'E09')
Dieser Code kann zwar helfen, die Frage zu beantworten, aber durch das Hinzufügen einiger Erklärungen wird die Antwort nützlicher, insbesondere wenn sie bei einer Suche auftaucht. – paisanco
Ich dachte, es wäre ein kleiner und selbsterklärender Vorschlag, aber sicher, Punkt gut gemacht. Aktualisiert. –