Das Tag-of-Speech (POS) -Tagging ist sehr spezifisch für eine bestimmte [natürliche] Sprache. NLTK enthält viele verschiedene Tagger, die unterschiedliche Techniken verwenden, um das Tag eines gegebenen Tokens in einem gegebenen Token abzuleiten. Die meisten (aber nicht alle) dieser Tagger verwenden ein statistisches Modell von Arten als das Haupt- oder einzige Gerät, um "den Trick zu machen". Solche Tagger erfordern einige "Trainingsdaten", um diese statistische Darstellung der Sprache aufzubauen, und die Trainingsdaten kommen in Form von Korpora vor.
Die NTLK "Distribution" selbst enthält viele dieser Korpora, sowie eine Reihe von "Korpora-Leser", die eine API zum Lesen verschiedener Arten von Korpora bieten. Ich kenne den Stand der Dinge in NTLK nicht, und wenn das irgendeinen deutschen Korpus einschließt. Sie können jedoch einige kostenlose Korpora frei finden, die Sie dann in ein Format konvertieren müssen, das den korrekten NTLK-Korpora-Leser erfüllt, und dann können Sie damit einen POS-Tagger für die deutsche Sprache trainieren.
Sie können sogar Ihr eigenes Korpus erstellen, aber das ist eine verdammt mühsame Arbeit; Wenn du in einer Universität arbeitest, musst du Wege finden, Studenten zu bestechen und andere dazu zu zwingen, das für dich zu tun ;-)
Ein Vorteil, den Sie ausnutzen könnte, ist, dass alle Substantive in deutscher Sprache aktiviert werden. –
Tag 'german' wurde im Rahmen der [** 2012 cleanup **] entfernt (http://meta.stackexchange.com/questions/128315/the-great-stack-overflow-tag-question-cleanup-of-2012)). –