Es scheint, dass das Laden von Daten aus einer CSV schneller als von SQL (Postgre SQL) mit Pandas ist. (Ich habe eine SSD)Pandas laden CSV schneller als SQL
Hier ist mein Testcode:
import pandas as pd
import numpy as np
start = time.time()
df = pd.read_csv('foo.csv')
df *= 3
duration = time.time() - start
print('{0}s'.format(duration))
engine = create_engine('postgresql://user:[email protected]:port/schema')
start = time.time()
df = pd.read_sql_query("select * from mytable", engine)
df *= 3
duration = time.time() - start
print('{0}s'.format(duration))
Die foo.csv und die Datenbank ist die gleiche (gleiche Menge an Daten und Spalten in beide, 4 Spalten, 100 000 Zeilen voll von zufälliger int).
CSV nimmt 0,05s
SQL 0,5s nimmt
Glaubst du, es ist normal, dass CSV 10 Mal schneller als SQL ist? Ich frage mich, wenn ich hier etwas fehlt bin ...
ja. normal.... –
Ok danke, ich war wirklich, obwohl SQL schneller war – Haelle