2013-06-10 19 views
6

Gibt es einen Standard, vorzugsweise Pythonic, um die &#xxxx; Notation in eine richtige Unicode-Zeichenfolge umzuwandeln?Konvertieren numerischer Zeichenreferenznotation in Unicodezeichenfolge

Zum Beispiel

מפגשי 

umgewandelt werden sollte:

מפגשי 

Es kann getan werden - ganz einfach - String-Manipulationen, aber ich frage mich, ob es für diese eine Standardbibliothek ist.

+0

Hinweis: dass Notation genannt wird [ "numerische Zeichenreferenz"] (https: // en. wikipedia.org/wiki/Numeric_character_reference). –

+0

+1 @JoachimSauer, danke, habe den Titel aktualisiert. –

+0

Related: http://stackoverflow.com/questions/3894564/replace-numeric-character-references-in-xml-document-using-python –

Antwort

9

Verwendung HTMLParser.HTMLParser():

>>> from HTMLParser import HTMLParser 
>>> h = HTMLParser() 
>>> s = "מפגשי" 
>>> print h.unescape(s) 
מפגשי 

Es ist ein Teil des standard library auch.


jedoch wenn Sie mit Python 3, haben Sie von html.parser importieren:

>>> from html.parser import HTMLParser 
>>> h = HTMLParser() 
>>> s = 'מפגשי' 
>>> print(h.unescape(s)) 
מפגשי 
+0

"unescape" scheint intern und nicht dokumentiert zu sein. Gibt es einen "offiziellen" Weg? – georg

+0

@ thg435 Nicht, dass ich davon weiß, sorry – TerryA

+0

Ich habe es auch nicht gefunden. Nun, das ist irgendwie scheiße, oder? – georg

Verwandte Themen