2016-12-08 7 views
0

Ich bin in der Lage, einige Informationen von einer Website mit Python und BeautifulSoup zu bekommen. Allerdings bekomme ich einen Fehler, wenn ich einen Pfad mit einem Sonderzeichen habe.Wie man einen Pfad mit Sonderzeichen konvertiert, um in einem Paket zu arbeiten

In der italienischen Sprache haben wir einige Sonderzeichen wie à, è, ì, ò und ù. Wenn ich manuell ein, e, ich, o und u Parsing funktioniert. Wenn ich jedoch BeautifulSoup benutze und es automatisch analysiere, erhalte ich einen Fehler. Wissen Sie, wie ich diese Zeichen in einfache Vokale konvertieren kann?

Ich habe folgende Einstellungen am Anfang meines Code:

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
+0

Sie sind auf der Suche [abzustreifen diakritischen Zeichen] (http://stackoverflow.com/q/517923/364696)? Die verschiedenen Akzentzeichen, von denen Sie sprechen, sind Diakritika, es ist nur unklar, ob das das Ziel ist. – ShadowRanger

Antwort

0

das Paket verwenden unidecode. Ich habe ein Code-Beispiel unten gegeben, wie diese verwenden:

from unidecode import unidecode as ud 
italian_string = "L'italiano è classificato al 21º" 
ud(italian_string) 

Die letzte Zeile zurück:

=> "L'italiano e classificato al 21o" 
+0

Nun, das Problem ist, dass ich Web Scraping mache. Lecter wurde auf diese Weise zurückgegeben: "É". Wenn ich Ihr System benutze, werden diese Zeichen zu "A (c)" –

+0

. Arbeiten Sie perfekt auf diesem: https://repl.it/languages/python3. Wie lautet die Zeichenfolge? – AER

+0

Wenn Sie "" anstelle von "" erhalten, sind Ihre Daten UTF-8-codiert. – cco

Verwandte Themen