2017-02-13 1 views
-2

Ich stehe vor dem Problem NLTK Stoppwörter liberary für Sindhi Sprache mit Python jupyter Notebook-Umgebung zu entwickeln. Sindhi Sprache ist wie arabische Sprache. Ich bitte um freundlich zu helfen, dass ich NLTK Sindhi stoppen und Wörter für Clustering und Analyse stemmingEntwickeln von NLTK Stoppwörter, Wortstämme und Beutel mit Wörtern für Sindhi Sprache

+1

Dies ist kein Code-schreiben-Service oder ein Tutorial-Service. Nur * spezifische * Programmierfragen sind zum Thema. –

+0

Wir bitten Sie, Ihre Lösungsversuche über den Code mit einem [Bearbeiten] zu Ihrer Frage anzuzeigen. –

+0

Bitte sehen Sie [Warum ist "Kann mir jemand helfen?" Keine eigentliche Frage?] (Http://meta.stackoverflow.com/q/284236) – EJoshuaS

Antwort

1

Sie sollten zuerst die Stemmer entwickeln, wie Sie das verwenden können, um Ihnen zu helfen, die Stoppwortliste automatisch zu entwickeln. Um Ihnen bei der Entwicklung der Stemmer zu helfen, verwenden Sie das Snowball System, das von Martin Porter entwickelt wurde, dem Erfinder des Porter Stemmers, der in Englisch am häufigsten verwendeten Stammer.

Sobald Sie Ihren Stemmer haben, können Sie die Stoppwortliste automatisch entwickeln, indem Sie Textkorpora extrahieren und das Zipf-Gesetz ausnutzen. Der Algorithmus ist:

  1. Erstellen Sie eine Liste von dämmt Begriff Frequenzen aus dem Corpus
  2. Sortieren in ihnen absteigender Reihenfolge und ordnen sie
  3. eine grafische Darstellung der Frequenzen zeichnen - es sollte
  4. Zipf-Gesetz gehorchen wählen ein Schwellenwert und behandeln alle Worte, oberhalb dieser Schwelle als Stoppwörter
  5. Abfrage des System mit dem Satz von Stoppwörtern und bewertet die Genauigkeit
  6. Repeat wie nötig

Vier populäre Maßnahmen der Begriff Frequenz (Suche nach diesen) sind:

  • Zeitfrequenz (TF)
  • Normierte Zeitfrequenz
  • Inverse Document Frequency (IDF)
  • Normalized Inverse Dokumenthäufigkeit

Neuere Forschung hat sich auf die Verwendung des Kul konzentriert lback-Leibler-Divergenzmaß als Hinweis darauf, wie informativ ein Wort ist (weniger informativ = wahrscheinlicher, ein Stoppwort zu sein). Vielleicht möchten Sie das untersuchen.

Verwandte Themen