2016-06-20 18 views
-1

Ich lese eine große Menge an Daten aus einer Datenbank über pd.read_sql (... chunksize = 10000), die ein df-Generatorobjekt erzeugt.Pandas DataFrame-Chunks: Schreiben eines DataFrame-Generatorobjekts to_csv

Während ich noch mit diesem Datenrahmen arbeiten, um es mit pd.merge in verschmelzenden (df, DF2 ...) Einige Funktionen sind nicht mehr verfügbar, wie df.to_cs (...)

Was ist der beste Weg, damit umzugehen? Wie kann ich einen solchen Datenrahmen in eine CSV schreiben? Muss ich manuell darüber iterieren?

Antwort

0

Sie können jeden Block entweder einzeln verarbeiten oder unter Verwendung von z. pd.concat, um auf allen Chunks als Ganzes zu arbeiten.

individuell, würden Sie in der Tat die Stücke durchlaufen wie so:

for chunk in pd.read_sql(...chunksize=10000): 
    # process chunk 

zu kombinieren, Sie list comprehension verwenden können:

df = pd.concat([chunk for chunk in pd.read_sql(...chunksize=10000)]) 
#process df 
Verwandte Themen