Q

Konvertieren numerischer Zeichenreferenznotation in Unicodezeichenfolge

2013-06-10 19 views 6 likes

6

Gibt es einen Standard, vorzugsweise Pythonic, um die &#xxxx; Notation in eine richtige Unicode-Zeichenfolge umzuwandeln?Konvertieren numerischer Zeichenreferenznotation in Unicodezeichenfolge

Zum Beispiel

&#1502;&#1508;&#1490;&#1513;&#1497;

umgewandelt werden sollte:

מפגשי

Es kann getan werden - ganz einfach - String-Manipulationen, aber ich frage mich, ob es für diese eine Standardbibliothek ist.

2013-06-10 Adam Matan

+0

Hinweis: dass Notation genannt wird [ "numerische Zeichenreferenz"] (https: // en. wikipedia.org/wiki/Numeric_character_reference). –

+0

+1 @JoachimSauer, danke, habe den Titel aktualisiert. –

+0

Related: http://stackoverflow.com/questions/3894564/replace-numeric-character-references-in-xml-document-using-python –

A

Antwort

9

Verwendung HTMLParser.HTMLParser():

>>> from HTMLParser import HTMLParser 
>>> h = HTMLParser() 
>>> s = "&#1502;&#1508;&#1490;&#1513;&#1497;" 
>>> print h.unescape(s) 
מפגשי

Es ist ein Teil des standard library auch.

jedoch wenn Sie mit Python 3, haben Sie von html.parser importieren:

>>> from html.parser import HTMLParser 
>>> h = HTMLParser() 
>>> s = '&#1502;&#1508;&#1490;&#1513;&#1497;' 
>>> print(h.unescape(s)) 
מפגשי

2013-06-10 07:32:07 TerryA

+0

"unescape" scheint intern und nicht dokumentiert zu sein. Gibt es einen "offiziellen" Weg? – georg

+0

@ thg435 Nicht, dass ich davon weiß, sorry – TerryA

+0

Ich habe es auch nicht gefunden. Nun, das ist irgendwie scheiße, oder? – georg

Verwandte Themen