Meine Daten auf HDFS sind im Sequenzdateiformat. Ich bin mit PySpark (Funke 1.6) und versuchen, 2 Dinge zu erreichen:Erhalte den HDFS-Dateipfad in PySpark für Dateien im Sequenzdateiformat
Datenpfad einen Zeitstempel enthält in yyyy/mm/dd/hh Format, das Ich mag würde sich in den Daten bringen. Ich habe SparkContext.wholeTextFiles ausprobiert, aber ich denke, dass das Sequence-Dateiformat nicht unterstützt wird.
Wie gehe ich mit dem obigen Punkt um, wenn ich Daten für einen Tag verarbeiten will und das Datum in die Daten einbringen will? In diesem Fall würde ich Daten wie JJJJ/MM/TT/* Format laden.
Alle Zeiger zu schätzen wissen.
Dank user6910411. Ich bin auf Spark 1.6 und benutze pyspark. – Arnkrishn