Ich habe einen sehr großen CSV-Datensatz habe (900M Datensätze), die im folgende Format besteht:Parst einen sehr großen CSV-Datensatz
URL | IP | ActivityId
Beispieldaten:
http://google.com/ | 127.0.0.1 | 2
http://google.com/ | 12.3.3.1 | 2
für dieses Format, ich wünsche um alle einzigartigen Aktivitäten pro URL zu erhalten.
Was ich versucht habe, war ein Wörterbuch zu erstellen, wo der Schlüssel die URL ist, und der Wert ist eine Reihe von einzigartigen Aktivitäten. Dies scheitert jedoch miserabel an der Leistungsfähigkeit - es verbraucht den gesamten RAM und ist sehr langsam (O (n) Operation)
Gibt es einen anderen schnelleren Ansatz?
Was ist mit den Aktivitäten auswählen, die nur einmalig an die angegebene URL sind, und erscheinen nicht in anderen URLs? – kjanko
Es ist komplizierter, nicht sicher, ob DASK es unterstützt. Aber gib mir eine Zeit, ich versuche eine Lösung zu finden. – jezrael
Es ist wirklich schwer, vielleicht besser ist eine neue Frage mit Beispiel und gewünschter Ausgabe, auch etwas Code, was Sie versuchen. Jetzt habe ich keine Lösung dafür :( – jezrael