2017-07-18 1 views
3

Wir haben Spark-Streaming von Kafka erstellen Checkpoints im HDFS-Server und es wird nicht aufgeräumt, jetzt haben wir Millionen von Checkpoints in der HDFS. Gibt es eine Möglichkeit, es automatisch von Funken zu reinigen?Spark Streaming Reinigung RDD Checkpoint Verzeichnisse

Spark-Version 1.6 HDFS 2,70

There are other random directories other than checkpoints which is not been cleared

Antwort

2
val conf = new SparkConf().set("spark.cleaner.referenceTracking.cleanCheckpoints", "true") 

Reinigung sollte nicht automatisch für alle Checkpoints durchgeführt werden, ist es notwendig, sie um über Funken invocations.As zu halten Funken Streaming spart Zwischenzustand Datensätze als Checkpoints und verlässt sich darauf, dass sie sich von Treiberfehlern erholen.

+0

Danke, aber ich sehe zufällige Daten als Checkpoints und es ist nicht Clearing, haben Sie eine Idee was ist das? hinzugefügt ein Bild von dem in der obigen Frage – Sads

+0

Eigentlich der letzte Checkpoint eines Funkenjobs wird nicht gereinigt, auch wenn Sie '--confconf.cleaner.referenceTracking.cleanCheckpoints = True 'setzen – asmaier