Ich habe einen einfachen Funke-Job, der eine Datei aus s3 liest, fünf nimmt und in s3 zurückschreibt. Was ich sehe ist, dass es immer eine zusätzliche Datei in s3 gibt, neben meiner Ausgabe "Verzeichnis", die output_ $ Ordner $ genannt wird.Junk Spark-Ausgabedatei auf S3 mit Dollarzeichen
Was ist das? Wie kann ich verhindern, dass Funken entstehen? Hier ist ein Code zu zeigen, was ich tue ...
x = spark.sparkContext.textFile("s3n://.../0000_part_00")
five = x.take(5)
five = spark.sparkContext.parallelize(five)
five.repartition(1).saveAsTextFile("s3n://prod.casumo.stu/dimensions/output/")
Nach dem Job, den ich habe s3 „Verzeichnis“ genannt Ausgabe, die output_ $ Ordner $ genannt Ergebnisse und ein anderes s3 Objekt enthält, die ich weiß nicht, was es ist.