Ich habe eine Reihe von Dokumenten, und ich möchte diese in eine solche Form verwandeln, dass es mir erlauben würde, tfidf für Wörter in diesen Dokumenten zu zählen (so dass jedes Dokument wird durch Vektor von Tfidf-Zahlen dargestellt).Wie (oder generieren) Tags für Nltk Lemmatizer
Ich dachte, dass es ausreicht, WordNetLemmatizer.lemmatize (Wort) und dann PorterStemer aufzurufen - aber alle 'haben', 'hat', 'hatte', usw. werden nicht umgewandelt, um durch den Lemmatizer "zu haben" und es gilt auch für andere Wörter. Dann habe ich gelesen, dass ich einen Hinweis für den Lemmatizer - Tag geben soll, der eine Art des Wortes darstellt - ob Nomen, Verb, Adjektiv, etc.
Meine Frage ist - wie bekomme ich diese Tags ? Was soll ich mit diesen Dokumenten machen, um das zu bekommen?
Ich benutze Python3.4, und ich bin lemmatizing + stemming einzelnes Wort auf einmal. Ich habe WordNetLematisizer und EnglishStemmer von nltk und stem() von stemming.porter2 ausprobiert.