2017-03-27 1 views
0

Ich lade Spark-Datenframes in H2O (mit Python) für den Aufbau von maschinellen Lernmodellen. Es wurde mir empfohlen, dass ich einen H2O-Cluster mit RAM 2-4x so groß wie der Rahmen, an dem ich trainiere, zuweisen werde, damit die Analyse bequem in den Speicher passt. Aber ich weiß nicht, wie man die Größe eines H2O-Rahmens genau schätzt.Wie wird die Größe des H2O-Rahmens in Byte in Python bestimmt?

Also vorausgesetzt, ich habe einen H2O-Rahmen bereits in Python geladen, wie kann ich tatsächlich seine Größe in Bytes bestimmen? Eine Annäherung innerhalb von 10-20% ist in Ordnung.

Antwort

2

Dies wird eine Zusammenfassung der zugrundeliegenden Darstellung in H2O Schlüsselwertspeichern, einschließlich dem vollständigen Bytegröße zeigen:

frame.describe(chunk_summary=True) 
0

Dies bezieht sich auf die 2-4-fache Größe der Datei auf der Festplatte, also schauen Sie sich die ursprüngliche Dateigröße an, anstatt den Speicher in Python zu betrachten. Auch die 2-4x-Empfehlung variiert je nach Algorithmus (GLM & DL benötigt weniger Speicher als Baummodelle).

+0

Der H2O-Rahmen durch die Umwandlung von einer Funkendatenrahmen mit verschiedenen Transformationen (beantragt erzeugt wird, das war selbst ursprünglich aus einer Hive-Abfrage generiert). Es entspricht nicht direkt einer Datei auf der Festplatte, soweit ich weiß. – abeboparebop

Verwandte Themen