Wie kann ich bestimmte Spalten aus einem Pandas HDFStore abrufen? Ich arbeite regelmäßig mit sehr großen Datensätzen, die zu groß sind, um sie im Speicher zu manipulieren. Ich würde gerne in einer CSV-Datei iterativ lesen, jeden Chunk in HDFStore-Objekt anhängen und dann mit Teilmengen der Daten arbeiten. Ich habe in einer einfachen CSV-Datei lesen und lud sie in ein HDFStore mit dem folgenden Code:Auswählen von Spalten aus der pandas.HDFStore-Tabelle
tmp = pd.HDFStore('test.h5')
chunker = pd.read_csv('cars.csv', iterator=True, chunksize=10, names=['make','model','drop'])
tmp.append('df', pd.concat([chunk for chunk in chunker], ignore_index=True))
und den Ausgang:
In [97]: tmp
Out[97]:
<class 'pandas.io.pytables.HDFStore'>
File path: test.h5
/df frame_table (typ->appendable,nrows->1930,indexers->[index])
Meine Frage ist, wie kann ich bestimmte Spalten aus tmp['df']
zugreifen? Die Dokumentation erwähnt eine select()
Methode und einige Term
Objekte. Die bereitgestellten Beispiele werden auf Panel-Daten angewendet; Allerdings, und ich bin zu sehr von einem Anfänger, um es auf den einfacheren Datenrahmen zu erweitern. Meine Vermutung ist, dass ich irgendwie einen Index der Spalten erstellen muss. Vielen Dank!
Existiert diese Funktion in 0.10.1? Ich konnte es nicht benutzen. Was ist das offene Problem auf GitHub? – alexbw
0.10.1 unterstützt Datenspalten; Welche Probleme hast du? – Jeff
Ich denke, wir sollten dies aktualisieren, um Verwirrung zu vermeiden, Jeff? –