Wie kann ich überprüfen, ob mein RDD oder Datenframe zwischengespeichert ist oder nicht?

Ich habe einen Datenrahmen say df1 erstellt. Ich habe dies mit Hilfe von df1.cache() zwischengespeichert. Wie kann ich überprüfen, ob dies zwischengespeichert wurde oder nicht? Auch gibt es eine Möglichkeit, so dass ich alle meine gecachten RDDs oder Datenframes sehen kann.Wie kann ich überprüfen, ob mein RDD oder Datenframe zwischengespeichert ist oder nicht?

Quelle

2015-09-07 StarLord

Sie können getStorageLevel.useMemory auf der RDD aufrufen, um herauszufinden, ob sich die Datenmenge im Speicher befindet. Zum Beispiel:

scala> val rdd = sc.parallelize(Seq(1,2)) 
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[1] at parallelize at <console>:21 

scala> rdd.getStorageLevel.useMemory 
res9: Boolean = false 

scala> rdd.cache() 
res10: rdd.type = ParallelCollectionRDD[1] at parallelize at <console>:21 

scala> rdd.getStorageLevel.useMemory 
res11: Boolean = true

Quelle

2015-09-07 09:08:05

Dank für die Antwort danken. Gibt es eine ähnliche Funktion in Python? – StarLord

Ich denke schon, überprüfen Sie die Python-APIs, um sicher zu sein. –

Ich kann es nicht finden, wenn Sie eine Ahnung haben, wo es mir helfen könnte, bitte helfen Sie mir – StarLord

@Arnab,

Haben Sie die Funktion in Python?
Hier ist ein Beispiel für den Datenrahmen DF:

DF.cache() 
print DF.is_cached

Hoffnung, das hilft.
Ram

Quelle

2016-07-11 18:54:45 user6296218

Ein Beispiel für was? In der DataFrame-Klasse gibt es keine solche Methode. –

is_cached ist keine Methode, es ist ein Attribut der DataFrame-Klasse. – cftarnas

In Java und Scala, könnte folgende Verfahren verwendet, um alle persistenten RDDs zu finden: sparkContext.getPersistentRDDs()
Hier Link zur Dokumentation: https://spark.apache.org/docs/2.0.2/api/java/org/apache/spark/SparkContext.html#getPersistentRDDs()

wie dieser Methode sieht nicht verfügbar ist in python noch:
https://issues.apache.org/jira/browse/SPARK-2141
Aber man könnte diesen kurzfristigen Hack benutzen. sparkContext._jsc.getPersistentRDDs() Produkte()

Danke.

Quelle

2017-10-17 03:33:52 bmc

Starten seit Funke (Scala) 2.1.0 kann dies für einen Datenrahmen überprüft werden, wie folgt:

dataframe.storageLevel.useMemory

Quelle

2018-03-09 07:29:11

Wie kann ich überprüfen, ob mein RDD oder Datenframe zwischengespeichert ist oder nicht?

Antwort

Verwandte Themen