Ich versuche, einen Bildklassifikationsalgorithmus mit Python und Spark zu schreiben.
Ich folge this Tutorial, das aus den offiziellen Databricks entnommen wird und funktioniert perfekt, wenn lokal ausgeführt wird.Image-Datenrahmen von HDFS für Bildklassifizierung
Mein Problem, Verschieben des Algorithmus auf einem Cluster, ist, dass ich meine Bilder aus zwei Ordnern auf dem HDFS im Format .jpg
laden muss, und ich kann keine Möglichkeit finden, einen Datenrahmen wie lokal zu erstellen in den Beispielen.
Ich bin auf der Suche nach einem Ersatz für diesen Code:
from sparkdl import readImages
jobs_df = readImages(img_dir + "/jobs").withColumn("label", lit(1))
Sie suchen nach einem Ersatz, der was genau macht? Ich glaube nicht, dass ich deine Frage verstehe. –
Was ist 'img_dir' eingestellt? Können Sie uns den HDFS-Pfad anzeigen? Ist Spark konfiguriert, um HDFS zu lesen, nicht lokale Festplatte? –