TfidfVectorizer bietet eine einfache Möglichkeit zum Umwandeln von Texten in Vektoren &.So wählen Sie Parameter in TfidfVectorizer in sklearn während des unbeaufsichtigten Clustering
Meine Frage ist, wie die richtigen Werte für Parameter wie min_df, max_features, smooth_idf, sublinear_tf zu wählen?
Update:
Vielleicht sollte ich auf die Frage stellen weitere Details haben:
Was ist, wenn ich mit Bündel von Texten ohne Aufsicht Clustering tue. und ich habe keine Etiketten für die Texte & Ich weiß nicht, wie viele Cluster es sein könnte (was ist eigentlich, was ich versuche herauszufinden)
Blick in "cross-validation". Dieser Entscheidungsprozess wird "Hyperparameter-Tuning" genannt, weil "min_df" usw. Hyperparameter sind. –