Ich versuche, Artikel mit Article
von newspaper
zu downloaden, und versuchen, die Wörter mit nltk
word_tokenizer
zu tokenisieren. Das Problem ist, wenn ich versuche, den geparsten Artikel Text zu drucken, einige dieser Artikel haben spezielle Anführungszeichen wie “
, ”
, ’
, die nicht durch den Tokenizer ausgefiltert werden, wie es eine regelmäßige '
und "
wäre.Entfernen Sie spezielle Anführungszeichen und andere Zeichen
Gibt es eine Möglichkeit, diese speziellen Anführungszeichen durch normale Anführungszeichen zu ersetzen, oder besser noch, alle möglichen Sonderzeichen zu entfernen, die der Tokenizer möglicherweise auslässt?
Ich habe versucht, diese Sonderzeichen durch explizite Erwähnung in Code zu entfernen, aber es gibt mir den Fehler Non-UTF-8 code starting with '\x92'
.
Danke! Das funktioniert perfekt. Gibt es eine Möglichkeit, irgendwelche Wörter mit diesen nicht utf-8 Zeichen vollständig zu entfernen? Weil für meine spezielle Anwendung, brauche ich keine Sonderzeichen oder Interpunktion, nur die tatsächlichen utf-8 Wörter aus dem Artikel. –
Sie sind herzlich willkommen. Die Verwendung von "unidecode" sollte alle nicht utf-8 Zeichen ersetzen, aber Interpunktionszeichen usw. beibehalten. Wenn Sie nur Buchstaben (und Leerzeichen) behalten möchten, verwenden Sie einen regulären Ausdruck: 'text = re ('[^ A- Za-z] ',' ', Text) '. Und wenn Sie Wörter mit einem Nicht-UTF8-Zeichen loswerden wollen, verwenden Sie komplexere reguläre Ausdrücke! – Archeo