Ich habe verschiedene Excel-Dateien, die ich mit Pandas verarbeite. Ich muss eine bestimmte Anzahl von Zeilen am Anfang jeder Datei entfernen. Diese zusätzlichen Zeilen könnten leer sein oder sie könnten Text enthalten. Pandas kombiniert einige Zeilen, so dass ich nicht sicher bin, wie viele entfernt werden müssen. Zum Beispiel:Pandas kombiniert leere Zeilen in einer Excel-Datei mit einer einzelnen Zeile im Datenrahmen
Hier ist ein Beispiel Excel-Datei (dargestellt als csv):
,,
,,
some text,,
,,
,,
,,
name, date, task
Jason,1-Jan,swim
Aem,2-Jan,workout
Hier ist mein aktueller Python-Skript:
import pandas as pd
xl = pd.ExcelFile('extra_rows.xlsx')
dfs = xl.parse(xl.sheet_names[0])
print ("dfs: ", dfs)
Hier die Ergebnisse sind, wenn ich den Datenrahmen drucken:
dfs: Unnamed: 0 Unnamed: 1 Unnamed: 2
0 some other text NaN NaN
1 NaN NaN NaN
2 NaN NaN NaN
3 NaN NaN NaN
4 name date task
5 Jason 2016-01-01 00:00:00 swim
6 Aem 2016-01-02 00:00:00 workout
Aus der Datei, würde ich die ersten sechs Reihen entfernen. Aus dem Datenframe würde ich jedoch nur 4 entfernen. Gibt es eine Möglichkeit, die Excel-Datei mit den Daten im Rohzustand einzulesen, so dass die Anzahl der Zeilen konsistent bleibt?