Ich habe ein numpy Array (users_to_remove) bestehend aus Benutzer-IDs zu entfernen (75000 in diesem Array), und ein Pandas Dataframe (Aufträge), von denen ich Zeilen entfernen möchte enthalten diese Ids.Löschen Millionen von Pandas Zeilen, wrt Werte in numpy Array
Bestellungen hat etwa 35 Millionen Zeilen.
Hier ist, wie ich zur Zeit gehen:
for i in users_to_remove:
orders = orders[orders.user_id != i]
Sein Alter und immer noch nur knapp sein Ziel Finish nehmen. Ich habe 8 GB RAM und einen Quad Core i5 mit 3,2 GHz.
Gibt es einen effizienten Weg, dies mit Pandas zu tun, sollte ich eine andere Sprache verwenden? Oder ist mein Computer dafür nur langsam?
Danke
entweder Ist von 'users_to_remove' oder' orders.user_id' sortiert? – Divakar