Ich habe einen Datenrahmen wie folgt. Es enthält den Dateipfad hdfs. Ich möchte die Werte lesen und dann den Inhalt der Datei lesen. Was ist der beste Weg, dies zu lösen, ohne verschachtelte RDDs, die parallele Verarbeitung nutzen? Ich bin mit Scala 2.11 und Zündkerzen 2,1Lesen Sie Dateipfad in einem Datenrahmen verfügbar und lesen Sie den Inhalt dieser Dateien mit Funken
+--------------------+
| value|
+--------------------+
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
+--------------------+
bearbeiten basierend auf Ankush Antwort: Die Dateien sehr groß sind und nicht gelesen werden kann mit wholeTextFiles
Danke
Sammeln Sie es in ein Array von Strings und dann ordnen Sie es mit 'sc.textFile'. Sie sollten eine Reihe von RDDs haben – philantrovert