Ich benutze Gensim Phrasen, um wichtige N-Gramm in meinem Text wie folgt zu identifizieren.Gensim Phrases Verwendung zu Filtern N-Gramm
bigram = Phrases(documents, min_count=5)
trigram = Phrases(bigram[documents], min_count=5)
for sent in documents:
bigrams_ = bigram[sent]
trigrams_ = trigram[bigram[sent]]
jedoch erkennt dies uninteressant n-Gramm wie special issue
, important matter
, high risk
etc. Ich bin besonders interessiert Konzepte im Text wie machine learning
, bei der Aufdeckung von human computer interaction
usw.
Gibt es eine Möglichkeit um Sätze zu stoppen, die uninteressante N-Gramme entdecken, wie ich oben in meinem Beispiel erwähnt habe?
Definieren Sie "uninteressant" oder "interessant". –
@CharlesPehlivanian Ich habe Beispiele gegeben –