2017-05-26 12 views
1

Ich habe Graphlab gelernt, wollte aber auch einen Blick auf Pandas werfen, da es Open Source ist und ich mich in Zukunft vielleicht in einem Unternehmen wiederfinden werde, das keine GL-Lizenz hat und ich fragte mich, wie Pandas mit der Erstellung eines Basismodells so umgehen konnten, wie ich es mit GL kann.Wie komme ich von Graphlab zu Pandas?

data = pd.read_csv("~/Downloads/diamonds.csv") 
sframe = gl.SFrame(data) 
train_data, test_data = sframe.random_split(.8, seed=1) 
train, test = train_test_split(data, train_size=0.75, random_state=88) 
reg_model = gl.linear_regression.create(train_data, target="price", features=["carat","cut","color"], validation_set=None) 

Was wären die Pandas Äquivalente der letzten Zeile?

+1

Es gibt keine 'pandas' gleichwertig. Sie möchten eine andere Bibliothek wie 'sklearn' verwenden. Ich füge das Tag hinzu. – piRSquared

+0

Danke! Ich schaue mir Scikit an –

Antwort

1

pandas selbst hat keine prädiktive Modellierung eingebaut (die ich kenne). Here is a good link on how to leverage pandas in einem statistischen Modell. This one too.

pandas ist wahrscheinlich eines der besten (wenn nicht die am besten) Module für die Datenmanipulation in Python. Es wird machen Daten und Manipulation der Daten für die Modellierung viel einfacher als Listen Speichern und Lesen von CSV-Dateien usw.

Lesen in Dateien ist so einfach wie (bemerken, wie intuitiv, es ist):

import pandas as pd 
# Excel 
df1 = read_excel(PATH_HERE) 
# Csv 
df1 = read_csv(PATH_HERE) 
# JSON 
df1 = read_json(PATH_HERE) 

und spucken Sie es aus:

# Excel 
d1.to_excel(PATH_HERE) 
# Need I go on again?? 

Es macht auch das Filtern und Slicing Ihrer Daten sehr einfach. Here is the official doc:

Für Modellierungszwecke sehen Sie sich sklearn und NLTK für Textanalyse an. Es gibt andere, aber diejenigen, die ich benutzt habe.

1

Für die Modellierung müssen Sie die sklearn-Bibliothek verwenden. Die letzte Zeile entspricht:

model = sklearn.linear_model.LogisticRegression() 
model.fit(train_data["carat","cut","color"], train_data["price"]) 

docs

Verwandte Themen