Ich lese in einer großen (~ 10 GB) hdf5 Tabelle mit pandas.read_hdf. Ich benutze Iterator = True, so dass ich auf Blöcke gleichzeitig zugreifen kann (z. B. chunksize = 100000 Zeilen gleichzeitig).Pandas read_hdf: Wie erhält man Spaltennamen, wenn chunksize oder iterator verwendet wird?
Wie bekomme ich eine Liste aller Spaltennamen oder "Schlüssel"?
Wie kommt es auch, dass es keine get_chunk Methode analog zu der für pandas.read_table gibt? Ist das direkte Iterieren über die Chunks der einzige Weg ("für Chunk in Daten:"), und Sie können nicht auf verschiedene nummerierte Chunks nach Belieben zugreifen ("data [300]")?
Edit:
Sieht aus wie ich die Spaltennamen mit einer Schleife zugreifen können, die den ersten Brocken nach dem Zugriff bricht:
for i,v in enumerate(data):
if i != 0:
break
colnames = v.columns
Aber dann meine zweite Frage bleibt: Gibt es keine Möglichkeit, den Zugang jeder einzelne Chunk auf dem pandas TextFileReader-Iterator (z. B. imitiert die get_chunk-Methode von read_table, oder mit einem dict-like-Lookup, Daten [0]), anstatt die oben genannte seltsame Einzel-Iteration für die Schleife?
Ehrfürchtig Dank! – quantumflash