In Pandas kann ich einfach pandas.io.parser.read_csv("file.csv", nrows=10000)
verwenden, um die ersten 10000 Zeilen einer CSV-Datei zu erhalten.Holen Sie sich die letzten 10000 Zeilen einer CSV-Datei
Aber weil meine CSV-Datei sehr groß ist und die letzten Zeilen relevanter sind als die ersten, würde ich gerne die letzten 10000 Zeilen lesen. Dies ist jedoch nicht so einfach, selbst wenn ich die Länge der Datei kenne, denn wenn ich die ersten 990000 Zeilen einer csv-Datei mit 1000000 Zeile überspringe, wird die erste Zeile, die den Dateikopf enthält, übersprungen. (header=0
wird gemessen, nachdem skiprows
angelegt wird, so dass es auch nicht helfen.)
Wie erhalte ich die letzten 10000 Zeilen aus einer CSV-Datei mit einem Header in Zeile 0, vorzugsweise ohne die Länge der Datei in den Zeilen zu wissen ?
Sind Sie auf einem Linux- oder OSX-System? Wenn ja, dann ist die Verwendung von 'tail -n 10000 file> file2' wahrscheinlich die einfachste ... – Carpetsmoker
Wenn Sie auf die Idee von @Carpetsmoker tippen, können Sie' subprocess.call () ': P – Mai
@Carpetsmoker aber er braucht auch einen Header. Es sollte als 'head -n 1 Datei> file2; tail -n 10000 Datei >> file2' –