2017-07-05 6 views
0

Ich habe diese miese Datei von einer Regierungsabteilung, die die Betriebspläne von mehr als 500 Busrouten über mehrere Blätter in einem einzigen Excel auflistet. Es gibt wirklich keine Struktur hier und der Autor scheint ein einziges Ziel zu haben - pack alles in einer einzigen Datei zusammen! JetztPandas verschmelzen mehrere Dataframes und die Do-Text-Analyse?

, was ich versuche zu tun:

umfangreiche Textanalyse Sie die Startzeit von jedem Lauf auf der Strecke zu extrahieren. Bitte beachten Sie, dass es mehrere Routen auf einem einzigen Blatt gibt und dass es insgesamt etwa 12 Blätter gibt.

Ich bin Schneiden meine Zähne mit der Pandas Bibliothek und an diesem Punkt fest:

Haben Sie ein Wörterbuch, in dem Key: Blattname Wert (random str die Strecke Sequenz zu identifizieren): Datenrahmen mit allen Zellendaten erstellt auf diesem Blatt.

Was würde Ich mag wissen:

  1. Erstellen einer gigantischen Datenrahmen, die alle Zeilen aus über die 12 Blätter hat. Beginnen Sie mit meiner Textanalyse nach diesem Schritt.

  2. Liegt das über dem richtigen Weg?

Vielen Dank im Voraus. AT

Antwort

0

Könnte ein Multi-Index-Datenrahmen versuchen:

df_3d=pd.concat(dfs, # List of dataframes 
       keys=sheetnames, # List of sheetnames 
       axis=1) 

Wo dfs wäre so etwas wie

dfs=[read_excel(io,sheetname=i) for i in sheetnames] 
sein
Verwandte Themen