2017-08-02 4 views
-1

Ich habe einen großen Datensatz im JSON-Format, aus dem ich wichtige Attribute extrahieren möchte, die die größte Varianz erfasst. Ich möchte diese Attribute extrahieren, um eine Suchmaschine für das Dataset zu erstellen, wobei diese Attribute der Hash-Schlüssel sind.Wie können wir Feature-Auswahl auf JSON-Daten tun?

Die Hauptfrage, die hier gestellt wird, ist die Auswahl von Features auf einem JSON-Daten.

Antwort

0

Sie könnten die Daten in ein Pandas DataFrame Objekt mit der pandas.read_json() Funktion lesen. Sie können dieses DataFrame-Objekt verwenden, um Einblick in Ihre Daten zu erhalten. Zum Beispiel:

data = pandas.load_json(json_file) 
data.head() # Displays the top five rows 
data.info() # Displays description of the data 

Oder Sie können auf diesem Datenrahmen verwenden matplotlib ein Histogramm für jedes numerisches Attribut plotten

import matplotlib.pyplot as plt 
data.hist(bins=50, figsize=(20,15)) 

Wenn Sie in Korrelation von Attributen interessiert sind, können Sie die pandas.scatter_matrix verwenden () Funktion.

Sie müssen manuell die Attribute auswählen, die am besten zu Ihrer Aufgabe passen, und diese Tools helfen Ihnen, die Daten zu verstehen und Einblick in sie zu gewinnen.

Verwandte Themen