Wie kann ich NLTK anweisen, den Text in einer bestimmten Sprache zu behandeln?kann NLTK/pyNLTK "per Sprache" arbeiten (d. H. Nicht englisch), und wie?
Hin und wieder schreibe ich eine spezialisierte NLP-Routine, um POS-Tagging, Tokenizing usw. in einer nicht-englischen (aber immer noch hindo-europäischen) Textdomäne zu machen.
Diese Frage scheint nur verschiedene Korpora, nicht die Änderung der Code/Einstellungen zur Adresse: POS tagging in German
Alternativ gibt es irgendwelche speziellen Hebrew/Spanisch/Polnisch NLP-Module für Python?
danke. Der Punkt-Satz-Tokenizer scheint die richtige Richtung zu sein. –
Wie funktioniert Treetagger? http://stackoverflow.com/questions/15503388/treetagger-installation-successful-but-cannot-open-par-file – alvas