2016-11-01 4 views
0

Ich möchte Pandas verwenden, um eine Zusammenfassung meiner Daten zusammenzufassen oder zu visualisieren, um hervorzuheben, wie die Lieferanten von der Datumsreihenfolge abweichen. Hier ist ein Ausschnitt meines Datenrahmen:Verwenden von Pandas zum Zusammenfassen und Plotten von Daten

Supplier TimeDiff (days) 
A 3 days 
B 4 days 
B 12 days 
A 0 days 
C 1 days 
B 2 days 
D 3 days 
E 5 days 
E 7 days 

„Lieferant“ Spalte enthält den Lieferantencodes und „TimeDiff“ Spalte enthält Zeitdifferenz (Datumsbereich, erhielt durch „um Fälligkeitsdatum“ von „Auftrag erhielt Datum“ Abzug).

Weiß jemand, wie ich diese Daten am besten zusammenfassen kann? Dank

+2

Können Sie das konkretisieren? Was möchten Sie aus diesen Daten lernen? Sie können zum Beispiel einen durchschnittlichen "TimeDiff" für jeden Lieferanten erhalten: 'data.groupby ('Supplier'). Mean() ['TimeDiff']' – burhan

Antwort

2

ich mit Berechnung der mittleren TimeDiff von Lieferanten starten würde:

import matplotlib.pyplot as plt 
import pandas as pd 

df = pd.DataFrame([['A', '3 days'], ['B', '4 days'], ['B', '12 days'], ['A', '0 days']], columns=['Supplier', 'TimeDiff']) 
df['TimeDiff'] = df['TimeDiff'].str.extract(r'(\d+)').astype(int) 
print df.groupby('Supplier').mean() 

      TimeDiff 
Supplier   
A    1.5 
B    8.0 

res.plot.bar() 
plt.show() 

enter image description here

+0

Vielen Dank für diese Lösungen. Ich frage mich, ob es möglich ist, ein Balkendiagramm direkt zu berechnen. – user27976

+0

Der Visualisierungscode und das Bild wurden hinzugefügt. –

+0

Vielen Dank Dennis. Es hat für mich funktioniert! – user27976

Verwandte Themen