Ich habe ein Experiment durchgeführt, bei dem mehrere Umfrageteilnehmer mehrere Musikstücke mit Wearable-Technologie angehört haben, um mehrere Informationen zu verfolgen, zwei Beispiele sind BPM
(Herzfrequenz) und T
(Körpertemperatur).Python Pandas: Speichern Sie mehrere Zeitreihen variabler Länge für mehrere Attribute für mehrere Benutzer
Das Ziel ist es, den Einfluss jedes Musikstücks (gekennzeichnet durch Benutzer-Feedback) auf menschliche Emotionen zu messen.
Im Moment alle Daten in .txt
Dateien gespeichert wurden (Jede Zeile in einer Textdatei einen Eintrag hat) in mehreren Verzeichnissen, die die folgende Struktur haben:
/user_1
/BPM
song_1.txt
76
78
song_2.txt
76
78
85
/T
song_1.txt
35.7
35.3
35.3
35.3
35.3
song_2.txt
32.2
32.4
37.8
32.4
37.8
Jede einzelne .txt
Datei haben kann eine andere Länge, aufgrund von Variablen wie Liedlänge und der Inkonsistenz in der Zeitperiode für das tragbare Gerät, das sendet. Zum Beispiel können selbst für dasselbe Lied die Zeitserien für BPM
und T
unterschiedliche Längen haben.
Ich habe bereits geschrieben Python-Code zu durchlaufen und lesen Sie die Werte aus allen Dateien.
Im Moment Ich erwäge einen Datenrahmen wie die folgende erstellen:
User_ID Song_ID BPM T
1 1 [65,...] [36,...]
1 2 [65,...] [36,...]
2 1 [65,...] [36,...]
2 2 [65,...] [36,...]
Aber ich mache mir Sorgen, ein Array in jeder Zelle zu speichern könnten Aufgaben machen die Daten wie die Standardisierung schwierig - ich frage mich, ob ich jetzt da ist eine bessere Möglichkeit, MultiIndex zu nutzen, um dieses in Pandas zu speichern?
Haben Sie die Bibliothek 'xarray' angeschaut? Es ist für die wissenschaftliche Datenanalyse konzipiert und erweitert Pandas auf mehrdimensionale Arrays. –
Die Bibliothek sieht gut aus, können Sie weitere Ratschläge zu diesem speziellen Anwendungsfall geben? – jfive