Ich habe eine große Anzahl von Namen aus verschiedenen Quellen.Satz Clustering
- Ich muss alle Gruppen (Teil der Namen) extrahieren, die von einem zum anderen wiederholen. Im folgenden Beispiel sollte Programm suchen: Post, Office, Post Office.
- Ich muss Popularität zählen.
Also ich möchte eine Liste nach Phrasen sortiert nach Beliebtheit zu extrahieren. Hier
ist ein Beispiel für Namen:
Post Office - High Littleton
Post Office Pilton Outreach Services
Town Street Post Office
post office St Thomas
Grundsätzlich müssen einige Algorithmus oder besser Bibliothek, um herauszufinden, um solche Ergebnisse zu erzielen:
Post Office: 16999
Post: 17934
Office: 16999
Tesco: 7300
...
Hier ist die vollständige example of names.
schrieb ich einen Code, der für einzelne Wörter in Ordnung ist, aber nicht für Sätze:
from textblob import TextBlob
import operator
title_file = open("names.txt", 'r')
blob = TextBlob(title_file.read())
list = sorted(blob.word_counts.items(), key=operator.itemgetter(1))
print list
"Ich möchte irgendeine Relevanz zwischen ihnen erhalten, und gruppiere alle Ergebnisse nach Sätzen (die aus den Namen extrahiert werden)"? Versuchen Sie zu bearbeiten und paraphrasieren – garg10may
Möchten Sie die Anzahl der Vorkommen von N-Gramm oder Cluster für Satz zählen? Dies sind zwei getrennte Dinge. –
@SemihYagcioglu Ich möchte Sätze, die am beliebtesten unter allen Namen ist: nur Gruppen, die mehr als 1 Namen enthält; Nur Gruppen, die nur Textdaten enthalten; es könnte Sätze enthalten, aus mehreren Wörtern; nur Eingabe sollte - eine Liste von Namen sein –