2017-02-03 2 views
-1

Ich habe versucht, den POS-Tagger auf der NLTK für ein paar Tage zu verbessern, aber ich kann es nicht herausfinden. Im Moment ist der Standard-Tagger sehr ungenau und markiert die meisten Wörter als 'NN'. Wie kann ich den Tagger verbessern, um ihn genauer zu machen? Ich habe bereits nachgeschlagen, um den Tagger zu trainieren, aber ich kann es nicht zum Laufen bringen.Python NLTK PoS Tag ungenau

Hat jemand eine einfache Methode dafür? Danke vielmals.

Antwort

1

Machst du es ein Wort zu einer Zeit oder in einem großen Korpus? Normalerweise verwenden POS-Markierungsalgorithmen die Wahrscheinlichkeit, dass das Wort ein Tag-Typ ist, beispielsweise "NN", aber sie verwenden auch den umgebenden Satzkontext, um vorherzusagen, dass je mehr Wörter, desto wahrscheinlicher ist es, dass sie genau ist.

Sie können auch versuchen, mit Unigram, Bigramm, Trigramm, etc. Tagging zu versuchen, eine höhere Genauigkeit zu Lasten der Leistung zu erhalten. Sie können darüber lesen, hier zu tun: http://www.nltk.org/book/ch05.html