Sagen wir, ich habe einen Datenrahmen:PySpark: Muss ich einen DataFrame erneut zwischenspeichern?
rdd = sc.textFile(file)
df = sqlContext.createDataFrame(rdd)
df.cache()
und ich eine Spalte hinzufügen
df = df.withColumn('c1', lit(0))
Ich möchte immer wieder df
verwenden. Muss ich also den Datarahmen erneut cache()
oder macht Spark es automatisch für mich?