Ich habe eine Eingabedatei, die Daten wie folgt enthält:Lesung aus mehreren Listen in eine Pandas Dataframe
[ABCD,color,NORMAL,N,2015-02-20,1]
[XYZA,color,NORMAL,N,2015-05-04,1]
[GFFD,color,NORMAL,N,2015-07-03,1]
[NAAS,color,NORMAL,N,2015-08-26,1]
[LOWW,color,NORMAL,N,2015-09-26,1]
[KARA,color,NORMAL,N,2015-11-08,1]
[ALEQ,color,NORMAL,N,2015-12-04,1]
[VDDE,color,NORMAL,N,2015-12-23,1]
[QWER,color,NORMAL,N,2016-01-18,1]
[KDSS,color,NORMAL,Y,2015-08-29,1]
ich eine Variable erstellt haben, die die Spaltennamen speichert table_columns sagen. Wie kann ich dies in einen Pandas Dataframe konvertieren?
Sollte dem Lesen aus mehreren Listen sehr ähnlich sein, aber die Anzahl der Listen, aus denen es liest, ist n.
Das Datenformat scheint ungewöhnlich: ohne die eckigen Klammern, es wäre eine einfache csv sein Datei, die Pandas ohne Probleme lesen können. Gibt es einen Grund, warum Ihre Datendatei eckige Klammern enthält? – egpbos
Ja, die Daten stammen von Sparks mapPartition-Methode für ein Schlüssel/Wert-PaarRDD. Es speichert die Daten als Schlüssel und Liste. Ich benutze nur den Wert für die Nachbearbeitung. –