Ich lade Spark-Datenframes in H2O (mit Python) für den Aufbau von maschinellen Lernmodellen. Es wurde mir empfohlen, dass ich einen H2O-Cluster mit RAM 2-4x so groß wie der Rahmen, an dem ich trainiere, zuweisen werde, damit die Analyse bequem in den Speicher passt. Aber ich weiß nicht, wie man die Größe eines H2O-Rahmens genau schätzt.Wie wird die Größe des H2O-Rahmens in Byte in Python bestimmt?
Also vorausgesetzt, ich habe einen H2O-Rahmen bereits in Python geladen, wie kann ich tatsächlich seine Größe in Bytes bestimmen? Eine Annäherung innerhalb von 10-20% ist in Ordnung.
Der H2O-Rahmen durch die Umwandlung von einer Funkendatenrahmen mit verschiedenen Transformationen (beantragt erzeugt wird, das war selbst ursprünglich aus einer Hive-Abfrage generiert). Es entspricht nicht direkt einer Datei auf der Festplatte, soweit ich weiß. – abeboparebop