Ich habe eine ~ 220 Millionen Zeile, 7 Spalte CSV-Datei. Ich muss Zeile 2636759 entfernen. Diese Datei ist 7.7 GB, mehr als in den Speicher passen. Ich bin am vertrautesten mit R, könnte dies aber auch in Python oder Bash tun.Entfernen Sie bekannte genaue Zeile in großen csv
Ich kann diese Datei nicht in einem Vorgang lesen oder schreiben. Was ist der beste Weg, um diese Datei inkrementell auf der Festplatte zu erstellen, anstatt dies alles im Speicher zu tun?
Ich habe versucht, dies auf SO zu finden, aber habe nur gefunden, wie man das mit Dateien macht, die klein genug sind, um im Speicher zu lesen/schreiben, oder mit Zeilen, die am Anfang der Datei stehen.
Dank, aber ich bereits Pandas versucht: -/ Tonnen von Fehlern, aber here zwei, zum Beispiel 'File "Pandas/parser.pyx", Linie 788, in pandas.parser.TextReader._read_low_memory (Pandas/Parser .c: 8244) ' ' Datei "pandas/parser.pyx", Zeile 1833, in pandas.parser.raise_parser_error (pandas/parser.c: 22649) pandas.parser.CParserError: Fehler beim Token von Daten. C-Fehler: Erwartete 7 Felder in Zeile 2636759, sah 8' – hedgedandlevered
sicher, ich könnte 100.000 Reihen gleichzeitig tun ... wie? – hedgedandlevered
Überprüfen Sie diese Lösung von einer anderen Frage. Es ändert die Datei an Ort und Stelle, sollte also schnell sein. http://StackOverflow.com/a/2330081/4190526 –