2016-10-21 5 views
0

Also habe ich Tweets als retweeted oder nicht retweeted gekennzeichnet und ich muss logistische Regression verwenden, um ein Modell zu erstellen, um vorherzusagen, ob ein Tweet retweeted oder nicht ist.Wie werden mehrere Funktionen für Text in der Textklassifikation verwendet?

Das Problem, mit dem ich konfrontiert bin, ist, ich weiß nicht, wie man mehrere mit logistischen Regression vorgestellten verwenden. Die Features, die ich verwenden muss, sind tf-idf, lda, ob ein Tweet retweetet wurde, wie viele Zeit Tweets von einem bestimmten Benutzer in der Vergangenheit retweeted wurden.

Wie kann ich 4 Funktionen in der binären Klassifizierung verwenden? Jede Hilfe würde sehr geschätzt werden.

+1

Welches Werkzeug sind Sie für dieses Problem verwenden (scikit-lernen, Tensorflow ...)? Die Vorgehensweise zur Verwendung von 2 Funktionen ist die gleiche wie die Verwendung von 4 Funktionen, es gibt keinen Unterschied. –

+0

scikit lernen. Wie würden wir das machen? irgendein Referenz-Tutorial? –

+0

Können Sie ein kleines Beispiel für Ihren Datensatz teilen? So kann ich besser helfen –

Antwort

0

Heres nur ein Beispiel der clasiffier Standardparameter verwendet, ist die Idee, dass das gleiche Verfahren, wenn Sie zwei verwendet wird, oder wenn Sie mehr Funktionen haben:

dataset = np.ndarray(shape=(num_rows,3),dtype=np.float32) ; 
retweeted_output = np.ndarray(shape=(num_rows,1),dtype=np.float32) 
#perform some actions to fill your data structures 
model = LogisticRegression(); 
model.fit(dataset,retweeted_output); 
+0

Das ist großartig. Danke vielmals. –

Verwandte Themen