Entwickeln von NLTK Stoppwörter, Wortstämme und Beutel mit Wörtern für Sindhi Sprache

-2

Ich stehe vor dem Problem NLTK Stoppwörter liberary für Sindhi Sprache mit Python jupyter Notebook-Umgebung zu entwickeln. Sindhi Sprache ist wie arabische Sprache. Ich bitte um freundlich zu helfen, dass ich NLTK Sindhi stoppen und Wörter für Clustering und Analyse stemmingEntwickeln von NLTK Stoppwörter, Wortstämme und Beutel mit Wörtern für Sindhi Sprache

Quelle

2017-02-13 user103987

Dies ist kein Code-schreiben-Service oder ein Tutorial-Service. Nur * spezifische * Programmierfragen sind zum Thema. –

Wir bitten Sie, Ihre Lösungsversuche über den Code mit einem [Bearbeiten] zu Ihrer Frage anzuzeigen. –

Bitte sehen Sie [Warum ist "Kann mir jemand helfen?" Keine eigentliche Frage?] (Http://meta.stackoverflow.com/q/284236) – EJoshuaS

Sie sollten zuerst die Stemmer entwickeln, wie Sie das verwenden können, um Ihnen zu helfen, die Stoppwortliste automatisch zu entwickeln. Um Ihnen bei der Entwicklung der Stemmer zu helfen, verwenden Sie das Snowball System, das von Martin Porter entwickelt wurde, dem Erfinder des Porter Stemmers, der in Englisch am häufigsten verwendeten Stammer.

Sobald Sie Ihren Stemmer haben, können Sie die Stoppwortliste automatisch entwickeln, indem Sie Textkorpora extrahieren und das Zipf-Gesetz ausnutzen. Der Algorithmus ist:

Erstellen Sie eine Liste von dämmt Begriff Frequenzen aus dem Corpus
Sortieren in ihnen absteigender Reihenfolge und ordnen sie
eine grafische Darstellung der Frequenzen zeichnen - es sollte
Zipf-Gesetz gehorchen wählen ein Schwellenwert und behandeln alle Worte, oberhalb dieser Schwelle als Stoppwörter
Abfrage des System mit dem Satz von Stoppwörtern und bewertet die Genauigkeit
Repeat wie nötig

Vier populäre Maßnahmen der Begriff Frequenz (Suche nach diesen) sind:

Zeitfrequenz (TF)
Normierte Zeitfrequenz
Inverse Document Frequency (IDF)
Normalized Inverse Dokumenthäufigkeit

Neuere Forschung hat sich auf die Verwendung des Kul konzentriert lback-Leibler-Divergenzmaß als Hinweis darauf, wie informativ ein Wort ist (weniger informativ = wahrscheinlicher, ein Stoppwort zu sein). Vielleicht möchten Sie das untersuchen.

Quelle

2017-02-13 21:34:41

Entwickeln von NLTK Stoppwörter, Wortstämme und Beutel mit Wörtern für Sindhi Sprache

Antwort

Verwandte Themen