ich ex erhalten, die Datei beschäftigt hdfs_non_map_reducegleichzeitiger append auf HDFS-Datei in Funken
ist Append_File gescheitert Ich nehme Aufzeichnungen von kafka durch Funken und steckt es in cassandra und hdfs stream.map(somefunc).saveToCassandra
stream.map(somefunc).foreachRDD(rdd =>
fs.append.write(rdd.collect.mkstring.getBytes)
fs.close)
Replikationsfaktor in hdfs ist 1, ich benutze einen Knoten-Cluster Funken Standalone-Cluster mit 2 Arbeiter
Ich möchte nicht rdd.toDF.save("append")
, weil es eine Menge von Dateien macht. Irgendwelche Ideen. Oder möglicherweise hdfs hat Methode zu überprüfen, wenn die Datei beschäftigt ist, eine andere Aufgabe?
Ich sehe, dass auf diese Weise spart Cassandra Arbeiter, aber spart zu hdfs Treiber. Warum? –