Wenn der folgende Code ausgeführt wird, das Ergebnis von dask.dataframe.head() hängt von nPartitionen:beeinflusst npartitions das Ergebnis von dask.dataframe.head()?
import dask.dataframe as dd
import pandas as pd
df = pd.DataFrame({'A': [1,2,3], 'B': [2,3,4]})
ddf = dd.from_pandas(df, npartitions = 3)
print(ddf.head())
Dies ergibt das folgende Ergebnis:
A B
0 1 2
Wenn jedoch I nPartitionen auf 1 gesetzt, oder 2, bekomme ich das erwartete Ergebnis:
A B
0 1 2
1 2 3
2 3 4
Es scheint wichtig zu sein, dass npartitions niedriger ist als die Länge des Datenrahmens. Ist das beabsichtigt? Muss ich die Größe meiner Daten immer überprüfen, bevor ich sie in einen Dask Frame umwandle?
Alle Ihre Daten (Zeilen) sind immer noch da, obwohl sie nicht vollständig von '.head()', '.tail()' usw. angezeigt werden. Wenn Sie sie aber mit 'to_hdf()' speichern, 'to_csv()' usw., dann werden __all__ Zeilen geschrieben. – MaxU