Ich habe versucht, ein Wort aus dem Quran Holy Book zu lemmatisieren, aber einige Wörter können nicht lemmatisiert werden.Warum kann NLTK Lemmatizer einige Pluralwörter nicht lemmatisieren?
hier ist mein Satz:
sentence = "Then bring ten surahs like it that have been invented and call upon for assistance whomever you can besides Allah if you should be truthful"
dieser Satz ein Teil meiner txt-Datensatz ist. wie Sie sehen können, gibt es "Surahs", die eine Pluralform von "Surah" ist. Ich habe versucht, meine Codes:
def lemmatize(self, ayat):
wordnet_lemmatizer = WordNetLemmatizer()
result = []
for i in xrange (len(ayat)):
result.append(wordnet_lemmatizer.lemmatize(sentence[i],'v'))
return result
, die, wenn ich laufen und drucken, ist das Ergebnis wie folgt aus:
['bring', 'ten', 'surahs', 'like', u'invent', 'call', 'upon', 'assistance', 'whomever', 'besides', 'Allah', 'truthful']
die ‚Suren‘ nicht in ‚surah‘ geändert wird.
kann jeder sagen warum? Vielen Dank.
Es ist nichts falsch mit dem wordnetlemmatizer per se, aber es kann einfach nicht unregelmäßig Worte gut genug behandeln. Sie könnten versuchen, diese "Hack" - https://StackOverflow.com/Questions/22333392/Stemming-Some-Plural-Swordnet-Lemmatizer-doesnt-work –
Ich habe diesen Hack versucht, aber es gibt keine [] – sang