2017-02-23 2 views
4

Warum funktioniert der französische Tokenizer, der mit Python kommt nicht für mich? Mache ich etwas falsch?Nltk französischer Tokenizer in Python funktioniert nicht

ich tue

import nltk 
content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."] 
tokenizer = nltk.data.load('tokenizers/punkt/PY3/french.pickle') 
for i in content_french: 
     print(i) 
     print(tokenizer.tokenize(i)) 

Aber ich bekomme nicht-Token versehen Ausgabe wie

John Richard Bond explique le rôle de l'astronomie. 
["John Richard Bond explique le rôle de l'astronomie."] 

Antwort

6

tokenizer.tokenize() ist Satz tokenizer (Splitter). Wenn Sie also wollen, dann tokenize word_tokenize() verwenden:

import nltk 
from nltk.tokenize import word_tokenize 

content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."] 
for i in content_french: 
     print(i) 
     print(word_tokenize(i, language='french')) 

Reference