2017-02-21 4 views
0

Ich muss einige Web-Daten analysieren, die aus dem Internet abgerufen wird. Es ist durchaus möglich, dass der Web-Inhalt aus verschiedenen regionalen Sprachen bestehen kann, die ich ohne Probleme anwende. Aber es gibt einige ungültige Zeichen in irgendeiner Zeichenfolge erscheinen, wieentfernen seltsame Zeichen aus einer Zeichenfolge in Python

Ich wokring 8qîÚ4½-ôMºÝCQ'Dɬ) Q + R ±} Ûýï7üÛ²ëlY & 53 |? 8ïôóg/^ ÿûêþ Iá # ï ¼ºy { 5+B^ß¿ß~¾¿½|ÓûÆk.c¹~WÚ@ë¤KÈh4rF-G|!¹ÿ¬|a~μuÓñμ_ »| Thi täglich statstistics

ich so seltsame Zeichen entfernen müssen und einen gültigen String extrahieren. Ich benutze Python. Ich kodiere jeden String mit utf-8.

+7

Dies sind wahrscheinlich keine seltsamen Zeichen. Sie verwenden einfach die falsche Kodierung ... –

+2

Wie definieren Sie eine "gültige Zeichenfolge"? –

+0

@ juanpa.arrivillaga Oder ein "seltsamer" Charakter? :) – DeepSpace

Antwort

1

Wenn Sie meinen, nicht-ascii von seltsamen, könnten Sie versuchen:

import string 
"".join(filter(lambda char: char in string.printable, s)) 

Wo ist Ihre Zeichenfolge ist. Hier sind einige Zeichenfolgenkonstanten, nach denen Sie filtern können: https://docs.python.org/3/library/string.html

Verwandte Themen