Lesen Sie alle aber letzte Zeile der CSV-Datei in Pandas

ich CSV-Dateien, die ich in Pandas lesen mit:Lesen Sie alle aber letzte Zeile der CSV-Datei in Pandas

#!/usr/bin/env python 

import pandas as pd 
import sys 

filename = sys.argv[1] 
df = pd.read_csv(filename)

Leider ist die letzte Zeile dieser Dateien oft korrupt ist (hat die falsche Anzahl von Kommas). Zur Zeit öffne ich jede Datei in einem Texteditor und entferne die letzte Zeile.

Ist es möglich, die letzte Zeile im selben Python/Pandas-Skript zu entfernen, das die CSV lädt, um zu sparen, dass Sie diesen zusätzlichen, nicht automatisierten Schritt ausführen müssen?

Quelle

2015-11-13 eleanora

Sie löschten eine Frage über das Extrahieren von Zahlen, trotzdem würde ich vorschlagen, 'str.extract' zu verwenden:' für col in df.spalten [2:]: df [col] = df [col] .str.extract (r '(\ d +)'). astyp (int) ' – EdChum

@EdChum Danke! – eleanora

@EdChum Überschreitet Ihr Code die Dezimalstellen? – eleanora

Pass error_bad_lines=False und es wird diese Zeile überspringen automatisch

df = pd.read_csv(filename, error_bad_lines=False)

Der Vorteil error_bad_lines ist es überspringen wird und nicht bork auf irgendwelchen fehlerhaften Linien, aber wenn die letzte Zeile duff ist immer dann skipfooter=1 ist besser

Dank @DexterMorgan für den Hinweis, dass skipfooter Option zwingt die Engine, die Python-Engine zu verwenden, die langsamer ist als die c-Engine zum Parsen eines CSV.

Quelle

2015-11-13 09:43:05 EdChum

Ich hätte das sehen sollen. Vielen Dank! – eleanora

In Bezug auf die Option "Skipfooter" ist es vielleicht gut zu wissen, dass es nicht mit der 'dtypes' Option funktioniert: ' ValueError: Zurück zur 'Python' Engine, weil die 'c' Engine keinen Skipfooter unterstützt, Dies führt jedoch dazu, dass 'dtype' ignoriert wird, da es von der 'python' Engine nicht unterstützt wird. (Beachten Sie, dass die Option "Konverter" ähnliche Funktionen bietet.) ' –

@DexterMorgan wird sicher – EdChum

Gelesen http://pandas.pydata.org/pandas-docs/version/0.16.2/generated/pandas.read_csv.html. Hier kann das Argument "Skipfooter" verwendet werden, um keine der Zeilen anzugeben, die nicht aus der .csv-Datei vom Ende gelesen werden sollen. Möge es dir helfen.

Quelle

2015-11-13 09:43:12

ja' skipfooter = 1' würde auch hier funktionieren +1 – EdChum

Lesen Sie alle aber letzte Zeile der CSV-Datei in Pandas

Antwort

Verwandte Themen