Es scheint mir, dass es für Pandas unmittelbar nützlich wäre, die Idee der Projektion (Auslassen oder Auswählen von Spalten) während der Datenanalyse zu unterstützen.Pandas JSON Daten Parsing Projektion
Viele JSON-Datasets, die ich finde, haben eine Tonne überflüssiger Felder, die ich nicht brauche, oder ich muss ein bestimmtes Feld in der verschachtelten Struktur analysieren.
Was ich derzeit mache ist Pipe durch jq
, um eine Datei zu erstellen, die nur die Felder enthält, die ich brauche. Dies wird zur "bereinigten" Datei.
Ich würde ein Verfahren vorziehen, wo ich nicht eine neue gereinigt Datei jedes Mal, wenn ich an einer bestimmten Facette aussehen wollen schaffen hatte oder von Facetten gesetzt, aber ich könnte stattdessen Pandas erzählen die JSON Pfad .data.interesting
und nur laden Projektfelder: A B C
.
Als Beispiel:
{
"data": {
"not interesting": ["milk", "yogurt", "dirt"],
"interesting": [{ "A": "moonlanding", "B": "1956", "C": 100000, "D": "meh" }]
}
Seufz, das ist die Schlussfolgerung, zu der ich auch gekommen bin. – Breedly
Erhalten Sie einen großen Leistungseinbruch, indem Sie diese Spalten nicht auslassen? – itsmichaelwang
Eigentlich warten, löst 'usecols' dein Problem? https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html – itsmichaelwang