sample=['he buy fish','he buy bread','the pizza is die'
,'the man buy pizza','mcdonald is there','there is a boy',
'who beat the man','burger and pizza']
fidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=200000, min_df=0.2, stop_words='english',use_idf=True)
vect=TfidfVectorizer(min_df=1)
x=vect.fit_transform(sample)
idf=vect.idf_
dist = 1 - cosine_similarity(x)
num_clusters = 3
km = KMeans(n_clusters=num_clusters)
km.fit(x)
clusters = km.labels_.tolist()
print(clusters)
output:Enumeration des k-means-Cluster
[2 2 0 0 1 1 0 0]
K-means perfekt funktionieren auf die Daten. Die Cluster-Nummer wird jedoch zufällig zwischen 0, 1 und 2 generiert, ohne einer Sequenz zu folgen.
Können Sie genauer beschreiben, was Sie erreichen möchten? Was ist die Frage hier? –
Über welche Sequenz sprichst du? – polku
Ich möchte die Ausgabe wie 0 0 1 1 2 2 1 1 statt zufällig für die weitere Verarbeitung – user2717427