2017-09-24 2 views
0

First off, hier ist mein Datenrahmen:Problem hat, diesen Datenrahmen von Investmentfonds Plotten

Date 2012-09-04 00:00:00 2012-09-05 00:00:00 2012-09-06 00:00:00 2012-09-07 00:00:00 2012-09-10 00:00:00 2012-09-11 00:00:00 2012-09-12 00:00:00 2012-09-13 00:00:00 2012-09-14 00:00:00 2012-09-17 00:00:00 ... 2017-08-22 00:00:00 2017-08-23 00:00:00 2017-08-24 00:00:00 2017-08-25 00:00:00 2017-08-28 00:00:00 2017-08-29 00:00:00 2017-08-30 00:00:00 2017-08-31 00:00:00 2017-09-01 00:00:00 Type 
AABTX 9.73 9.73 9.83 9.86 9.83 9.86 9.86 9.96 9.98 9.96 ... 11.44 11.45 11.44 11.46 11.46 11.47 11.47 11.51 11.52 Hybrid 
AACTX 9.66 9.65 9.77 9.81 9.78 9.81 9.82 9.92 9.95 9.93 ... 12.32 12.32 12.31 12.33 12.34 12.34 12.35 12.40 12.41 Hybrid 
AADTX 9.71 9.70 9.85 9.90 9.86 9.89 9.91 10.02 10.07 10.05 ... 13.05 13.04 13.03 13.05 13.06 13.06 13.08 13.14 13.15 Hybrid 
AAETX 9.92 9.91 10.07 10.13 10.08 10.12 10.14 10.26 10.32 10.29 ... 13.84 13.84 13.82 13.85 13.86 13.86 13.89 13.96 13.98 Hybrid 
AAFTX 9.85 9.84 10.01 10.06 10.01 10.05 10.07 10.20 10.26 10.23 ... 14.09 14.08 14.07 14.09 14.11 14.11 14.15 14.24 14.26 Hybrid 

Das ist ein bisschen schwer zu lesen, aber diese sind nur Schlusskurse für mehrere Investmentfonds im Wesentlichen (638), die die Type Etikett in der letzten Spalte. Ich würde alle diese Dinge auf einer einzigen Handlung plotten und eine Legende haben, die den Typ jeder Handlung kennzeichnet.

Ich würde gerne sehen, wie viele potenzielle Cluster ich brauche. Dies war meine erste, um die Daten zu visualisieren, aber wenn Sie andere Empfehlungen haben, zögern Sie nicht, es vorzuschlagen.

Auch in meinem ersten Versuch habe ich versucht:

parallel_coordinates(closing_data, 'Type', alpha=0.2, colormap=dark2_cmap) 
plt.show() 

Es zeigt nur, wie ein schwarzer Klecks und nach einigen Recherchen fand ich, dass es nicht große Anzahl von Funktionen, die gut umgehen kann.

+0

ist es besser, den zugehörigen Code zu veröffentlichen. – caot

Antwort

2

Mein Vorschlag ist, den Datenrahmen zu transponieren, da Zeitstempel natürlicher als ein Index kommt und Sie einzelne Zeitreihen als df.AABTX oder df['AABTX'] adressieren können.

Mit einer kleineren Anzahl von Zeitreihen könnten Sie df.plot() ausprobiert haben, aber wenn es ziemlich groß ist, sollten Sie nicht überrascht sein, um ein Chaos zuerst zu sehen.

Versuchen Sie, eine Teilmenge Ihrer Daten zu zeichnen, aber stellen Sie sicher, dass die Uhrzeit im Index angegeben ist, nicht die Spaltennamen.

1

Möglicherweise suchen Sie nach etwas wie dem silhouette analysis, das in der scikit-learn Machine Learning-Bibliothek implementiert ist. Es sollte ermöglichen, eine optimale Anzahl von Clustern für Ihre Daten zu finden.

Verwandte Themen