Ich versuche, Wörter in einem Text zu lemmatizieren. Wie zum Beispiel ‚gebeizt‘ sollte ‚Gurke‘ drehen, ‚lief‘ auf ‚Run‘, ‚Rosinen‘ bis ‚Rosine‘ usw.Nltks wordnet lemmatizer nicht alle Wörter lemmatizierend
Ich nltk die mit WordNet Lemmatizer
wie folgt:
from nltk.stem import WordNetLemmatizer
>>>
>>> lem = WordNetLemmatizer()
>>> print(lem.lemmatize("cats"))
cat
>>> print(lem.lemmatize("pickled"))
pickled
>>> print(lem.lemmatize("ran"))
ran
So, wie Sie für 'pickled'
und 'ran'
sehen können, kommt die Ausgabe nicht wie erwartet. Wie man 'pickle'
und 'run'
für diese bekommt, ohne 'v'
(Verb) usw. für die Wörter spezifizieren zu müssen.
Wie wäre es [POS-Tagging] (http://www.nltk.org/api/nltk.tag.html#nltk.tag.pos_tag)? – lenz