Ich habe eine Datentabelle, die ~ 74 Millionen Zeilen hat, die ich verwendet habe, um es zu laden.Effiziente Möglichkeit, bestimmte Zeilen mit Blaze-Paket zu finden?
from blaze import CSV, data
csv = CSV('train.csv')
t = data(csv)
Es hat Felder diese: A, B, C, D, E, F, G
Da es sich um einen so großer Datenrahmen, wie kann ich effizient Ausgabezeilen, die bestimmten Kriterien passen? Zum Beispiel möchte ich Zeilen mit A == 4, B == 8, E == 10. Gibt es eine Möglichkeit zum Multitasking der Suche? Zum Beispiel durch Threading oder parallele Programmierung oder etwas?
Durch parallele Programmierung meine ich zum Beispiel, ein Thread wird versuchen, die passende Zeile von Zeile 1 bis Zeile 100000 zu finden, und der zweite Thread wird versuchen, die passende Zeile von Zeile 100001 bis 200000 zu finden, und so weiter .. .
Haben Sie bei http://stackoverflow.com/questions/27505764/pydata-blaze-does sah -erlaube-parallel-Verarbeitung-oder-nicht weiß ich nicht, aber die Antwort hier scheint in die Richtung zu zeigen, die Sie wollen – saulspatz