2017-07-09 4 views
0

Ich habe einen geparsten Text, der HTML-Versionen verschiedener Symbole wie Anführungszeichen oder Bindestriche enthält. DieseUmgang mit HTML-Entitäten in geparsten Text - Python

ist wie eine Zeichenfolge wie folgt aussieht:

Introduction &#8211 First page&#8218s content 

Und ich möchte dies achive:

Introduction - First page's content 

Gibt es eine Bibliothek oder gemeinsame Lösung, die Ändert die HTML-Entitäten in einer beliebigen Zeichenfolge? Oder ich müsste eine Funktion schreiben, die den HTML-Code durch den richtigen String ersetzt?

Ich habe bereits these answers überprüft, aber ich möchte lieber etwas, das mit einem einfachen Python-String, der HTML-Entities enthält funktioniert.

Antwort

1

html Modul erfordert nichts Besonderes aus der Zeichenfolge. Es funktioniert einfach:

>>> import html 
>>> html.unescape('Introduction &#8211 First page&#8218s content') 
'Introduction – First page‚s content' 
0

Versuchen

print unicode(x) 

oder

print x.encode('ascii')

+0

Unicode und Codierung haben nichts mit Einheiten. – phd

Verwandte Themen