Ähnlich wie code snippet, die die Speicherauslastung von Objekten in der lokalen R
-Umgebung auflistet, gibt es einen ähnlichen Befehl, um den Speicher von DataFrames in einer Spark-Verbindung verfügbar zu machen? Z.B. Ähnliches wie src_tbls(sc)
, das derzeit nur alle DataFrames, aber nicht die Speicherbelegung auflistet.Wie kann man die Speichernutzung von DataFrames mit Sparklyr anzeigen?
Antwort
Zunächst müssen Sie sich daran erinnern, dass die in Spark verwendeten Datenstrukturen standardmäßig faul sind. Wenn nicht zwischengespeichert wird, gibt es keinen datenbezogenen Speicheraufwand. Cache selbst ist kurzlebig - abhängig von StorageLevel
Daten können geräumt werden, verloren als Ergebnis eines Fehlers oder wenn der Knoten außer Betrieb genommen wird.
Sie müssen auch daran denken, dass SQL komprimierten Spaltenspeicher verwendet, sodass die Speichernutzung durch die Verteilung der Daten beeinflusst werden kann.
Wenn Sie an der Gesamtspeicherauslastung des Betriebssystems interessiert sind, sollten Sie lieber eine geeignete Überwachungslösung wie Ganglia oder Munin verwenden.
Dass gesagt wird eine Information über den aktuellen Status SparkContext
zugreifen können:
sc <- spark_connect(...)
sc %>%
spark_context %>%
invoke("getRDDStorageInfo")
oder durch Abfragen Funken UI:
url <- sc %>% spark_context %>% invoke("uiWebUrl") %>% invoke("get")
browseURL(paste(url, "storage", sep="/"))
oder REST API:
app_id <- sc %>% spark_context %>% invoke("applicationId")
httr::GET(paste(
url, "api", "v1", "applications", app_id, "storage", "rdd", sep="/"
))
- 1. Python Multiprocessing - Wie überwacht man die Speichernutzung?
- 2. Wie steuert man die Speichernutzung von Mongo DB in Windows?
- 3. Angeben von Spaltenklassen mit sparklyr
- 4. Wie erhält man die maximale Speichernutzung von Python-Skripten?
- 5. Wie kann man mehrere DataFrames durchlaufen und mehrere csv erzeugen?
- 6. Xcode 6.0.1 nicht die Speichernutzung
- 7. Matrix Mathe mit Sparklyr
- 8. R - Wie repliziert man Zeilen in einem Spark-Dataframe mit Sparklyr?
- 9. Wie kann man die CPU- und Speichernutzung eines Prozesses mit WMI erkennen?
- 10. Wie speichert man Daten in einem Spark-Cluster mit Sparklyr?
- 11. Pandas Dataframes: wie man sie effizient erstellt
- 12. Sparklyr - Kann SessionHiveMetaStoreClient nicht instanziieren
- 13. Wie kann ich begrenzen ffmpeg Speichernutzung
- 14. Speichernutzung von Perl-Skript
- 15. Wie kann die Speichernutzung im Multithreading gesteuert werden?
- 16. Wie kann ich die Speichernutzung in Elixir überprüfen?
- 17. Wie kann ich die Speichernutzung in C++ kennen?
- 18. Funken Dataframes- von Key
- 19. Wie kann die Speichernutzung in der Sammlungsansicht reduziert werden?
- 20. Wie wird die CPU- und Speichernutzung von F # -Code gemessen?
- 21. Begrenzung die gesamte Speichernutzung von PostgreSQL
- 22. Wie die Speichernutzung ofPython begrenzen _ Pandas
- 23. Erhöht sich die Speichernutzung mit langen Klassennamen?
- 24. Dot-Boxplots von DataFrames
- 25. Wie man Dataframes von avro zu GenericRecord in scala konvertiert
- 26. Wie konvertiert man Spaltennamen eines DataFrames von String in Integer?
- 27. Measure Speichernutzung von Codeeinheit
- 28. Wie auf teilweise Übereinstimmung filtern sparklyr mit
- 29. Speichernutzung von FileChannel # map
- 30. Speichernutzung von SKSpriteNodes