Nltk französischer Tokenizer in Python funktioniert nicht

Warum funktioniert der französische Tokenizer, der mit Python kommt nicht für mich? Mache ich etwas falsch?Nltk französischer Tokenizer in Python funktioniert nicht

ich tue

import nltk 
content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."] 
tokenizer = nltk.data.load('tokenizers/punkt/PY3/french.pickle') 
for i in content_french: 
     print(i) 
     print(tokenizer.tokenize(i))

Aber ich bekomme nicht-Token versehen Ausgabe wie

John Richard Bond explique le rôle de l'astronomie. 
["John Richard Bond explique le rôle de l'astronomie."]

Quelle

2017-02-23 Atirag

tokenizer.tokenize() ist Satz tokenizer (Splitter). Wenn Sie also wollen, dann tokenize word_tokenize() verwenden:

import nltk 
from nltk.tokenize import word_tokenize 

content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."] 
for i in content_french: 
     print(i) 
     print(word_tokenize(i, language='french'))

Reference

Quelle

2017-02-24 00:17:54

Nltk französischer Tokenizer in Python funktioniert nicht

Antwort

Verwandte Themen