Ich habe eine tsv-Datei mit mehreren Spalten. Es gibt 10 und mehr Spalten, aber die Spalten, die mir wichtig sind, sind diejenigen mit dem Namen benutzername, shift_id, url_id. Ich möchte einen Datenrahmen erstellen, der zuerst die gesamte CSV-Datei basierend auf Benutzernamen trennt, d. H. Nur Zeilen mit demselben Benutzernamen werden zusammen gruppiert. Aus diesem Chunk mache ich einen weiteren Chunk, in dem nur Zeilen mit bestimmten shift_id gruppiert werden und dann aus diesem Chunk einen Chunk mit derselben URL erstellen. Leider kann ich die Daten aufgrund der Unternehmensregel nicht teilen und eine imaginäre Datentabelle könnte verwirrender sein.Aufteilen einer CSV-Datei in Panda-Datenrahmen durch mehrere Spalten
Zwei der anderen Spalten haben Zeitstempel. Ich möchte die Zeitdauer des Chunks berechnen, aber erst, nachdem ich Chunk nach diesen Spalten gruppiert habe.
Ich habe Antworten gesehen, die Datenrahmen um einen bestimmten Spaltenwert teilen, aber in meinem Fall habe ich drei Spaltenwerte und die Reihenfolge, in der sie getrennt sind, zählt auch.
Vielen Dank für Ihre Hilfe!
Meinst du nur 'Dataframe', das nur 3 Spalten auswählt, die wichtig sind? – 0p3n5ourcE
Wie wäre es damit, uns Daten oder Code oder irgendetwas wirklich zu zeigen? –
@ Open-Source Hat meine Hilfe bearbeitet? –