2017-12-10 1 views
-2

Ich brauche Anleitung.Filterung, Mittelung und Entfernen von Zeilen in Pandas Datenrahmen

Können Sie mir bitte welche Bibliothek ich für das folgende Problem verwenden kann. Ich bin ziemlich neu mit Python und ich versuche, einige Statistiken über einige Aktienhandelsdaten zu machen. Ich entschuldige mich dafür, dass ich den Beispielcode nicht gepostet habe, da ich buchstäblich nicht weiß, wo ich anfangen soll.

Die Daten, die ich habe, ist die folgende:

Dies sind insgesamt 3 Trades, die bis in Fragmente gebrochen wurden, und das Ziel ist es, sie in drei ganz getrennte Gewerke für weitere Analysen zu kombinieren.

Überschüssige Daten müssen entfernt werden, da sie alle gleich sind, Zeit muss gemittelt werden, überschüssige Symbole müssen entfernt werden, Preis muss gemittelt werden und Menge muss hinzugefügt werden. Route und Broker sind nicht wichtig

B = Kaufen, S = Verkauf, SS = Verkaufen Short

  Date  Time Symb Side Price Qty Route Broker 
0 2017-12-05 12:26:13 VRX B 2.2000 1000 PDQM  NaN  
1 2017-12-05 12:00:21 VRX SS 2.1700 200 EDGE  NaN  
2 2017-12-05 12:00:21 VRX SS 2.1700 100 EDGE  NaN 
3 2017-12-05 12:00:21 VRX SS 2.1700 500 EDGE  NaN  
4 2017-12-05 12:00:21 VRX SS 2.1700 200 EDGE  NaN 
5 2017-12-05 11:53:14 FRK S 2.4000 1000 EDGE  NaN  
6 2017-12-05 11:52:41 FRK B 2.4200 300 PDQM  NaN  
7 2017-12-05 11:52:41 FRK B 2.4200 700 PDQM  NaN  
8 2017-12-05 11:51:53 CUR B 2.3200 1000 PDQM  NaN  
9 2017-12-05 11:50:36 CUR SS 2.1900 710 EDGE  NaN  
10 2017-12-05 11:50:32 CUR SS 2.1900 290 SMAT  NaN 

End Ergebnis sollte wie folgt aussehen:

Insgesamt 3 Gewerke, 6 Linien als jeder Handel besteht aus 2 Seiten, Buy and Sell oder Short Sale und Buy. Bitte beachten Sie, dass Daten nach hinten, von den ältesten Gewerke an der Unterseite auf die neueren in den oberen

  Date  Time Symb Side Price Qty 
0 2017-12-05 12:26:13 VRX B 2.2000 1000 
1 2017-12-05 12:00:21 VRX SS 2.1700 1000 
2 2017-12-05 11:53:14 FRK S 2.4000 1000 
3 2017-12-05 11:52:41 FRK B 2.4200 1000 
4 2017-12-05 11:51:53 CUR B 2.3200 1000 
5 2017-12-05 11:50:34 CUR SS 2.1900 1000 
+0

http://pandas.pydata.org/pandas-docs/stable/ – wwii

Antwort

1
aggs = {"Price":"mean", "Qty":"sum","Time":"min"} 

df = df.groupby(["Date","Symb", "Side"])[["Price","Qty","Time"]].agg(aggs) 
df = df.reset_index() 
Verwandte Themen