2017-05-19 1 views
0

TfidfVectorizer bietet eine einfache Möglichkeit zum Umwandeln von Texten in Vektoren &.So wählen Sie Parameter in TfidfVectorizer in sklearn während des unbeaufsichtigten Clustering

Meine Frage ist, wie die richtigen Werte für Parameter wie min_df, max_features, smooth_idf, sublinear_tf zu wählen?

Update:

Vielleicht sollte ich auf die Frage stellen weitere Details haben:

Was ist, wenn ich mit Bündel von Texten ohne Aufsicht Clustering tue. und ich habe keine Etiketten für die Texte & Ich weiß nicht, wie viele Cluster es sein könnte (was ist eigentlich, was ich versuche herauszufinden)

+1

Blick in "cross-validation". Dieser Entscheidungsprozess wird "Hyperparameter-Tuning" genannt, weil "min_df" usw. Hyperparameter sind. –

Antwort

1

Wenn Sie zum Beispiel diese Vektoren verwenden Bei einer Klassifizierungsaufgabe können Sie diese Parameter (und natürlich auch die Parameter des Klassifikators) variieren und sehen, welche Werte Ihnen die beste Leistung bringen.

Sie können so leicht mit dem GridSearchCV in sklearn tun und Pipeline-Objekte

pipeline = Pipeline([ 
    ('tfidf', TfidfVectorizer(stop_words=stop_words)), 
    ('clf', OneVsRestClassifier(MultinomialNB(
     fit_prior=True, class_prior=None))), 
]) 
parameters = { 
    'tfidf__max_df': (0.25, 0.5, 0.75), 
    'tfidf__ngram_range': [(1, 1), (1, 2), (1, 3)], 
    'clf__estimator__alpha': (1e-2, 1e-3) 
} 

grid_search_tune = GridSearchCV(pipeline, parameters, cv=2, n_jobs=2, verbose=3) 
grid_search_tune.fit(train_x, train_y) 

print("Best parameters set:") 
print grid_search_tune.best_estimator_.steps 
+0

Vielen Dank für Ihre ausführliche Antwort. Leider mache ich unüberwacht Clustering mit einer Reihe von Texten. und ich habe nicht einmal Labels für mögliche Cluster. was soll ich machen? – user6396

+0

Sie können bewerten, wie gut Ihre Cluster sind, zum Beispiel: https://www.wikiwand.com/Cluster_Analysis#/Evaluation_and_assessment, und überprüfen Sie, wie die TfIdfVectorizer-Parameter auch die Ergebnisse beeinflussen –

Verwandte Themen