Wie wird die Größe des H2O-Rahmens in Byte in Python bestimmt?

Ich lade Spark-Datenframes in H2O (mit Python) für den Aufbau von maschinellen Lernmodellen. Es wurde mir empfohlen, dass ich einen H2O-Cluster mit RAM 2-4x so groß wie der Rahmen, an dem ich trainiere, zuweisen werde, damit die Analyse bequem in den Speicher passt. Aber ich weiß nicht, wie man die Größe eines H2O-Rahmens genau schätzt.Wie wird die Größe des H2O-Rahmens in Byte in Python bestimmt?

Also vorausgesetzt, ich habe einen H2O-Rahmen bereits in Python geladen, wie kann ich tatsächlich seine Größe in Bytes bestimmen? Eine Annäherung innerhalb von 10-20% ist in Ordnung.

Quelle

2017-03-27 abeboparebop

Dies wird eine Zusammenfassung der zugrundeliegenden Darstellung in H2O Schlüsselwertspeichern, einschließlich dem vollständigen Bytegröße zeigen:

frame.describe(chunk_summary=True)

Quelle

2017-03-29 20:52:18

Dies bezieht sich auf die 2-4-fache Größe der Datei auf der Festplatte, also schauen Sie sich die ursprüngliche Dateigröße an, anstatt den Speicher in Python zu betrachten. Auch die 2-4x-Empfehlung variiert je nach Algorithmus (GLM & DL benötigt weniger Speicher als Baummodelle).

Quelle

2017-03-27 16:11:47

Der H2O-Rahmen durch die Umwandlung von einer Funkendatenrahmen mit verschiedenen Transformationen (beantragt erzeugt wird, das war selbst ursprünglich aus einer Hive-Abfrage generiert). Es entspricht nicht direkt einer Datei auf der Festplatte, soweit ich weiß. – abeboparebop

Wie wird die Größe des H2O-Rahmens in Byte in Python bestimmt?

Antwort

Verwandte Themen