2012-09-28 6 views
5

Ich habe Probleme beim Inhalt anzeigt, mein Programm:Change & # 39 in den normalen Charakter

#! /usr/bin/python 

import urllib 
import re 

url = "http://yahoo.com" 
pattern = '''<span class="medium item-label".*?>(.*)</span>''' 

website = urllib.urlopen(url) 
pageContent = website.read() 
result = re.findall(pattern, pageContent) 

for record in result: 
    print record 

Ausgang:

Masked teen killed by dad 
First look in &#39;Hotel of Doom&#39; 
Ex-NFL QB&#39;s sad condition 
Reporter ignores warning 
Romney&#39;s low bar for debates 

Die Frage ist also, was soll ich in meinem Code enthalten in um & # 39 in Zeichen

+0

vielleicht mit http://stackoverflow.com/questions/57708/convert-xml-html-entities-into-unicode- dupliziert String-in-Python – charlee

Antwort

8

In Python2 zu verwandeln:

In [16]: text = 'Ex-NFL QB&#39;s sad condition' 

In [17]: import HTMLParser 

In [18]: parser = HTMLParser.HTMLParser() 

In [19]: parser.unescape(text) 
Out[19]: u"Ex-NFL QB's sad condition" 

In Python3:

import html.parser as htmlparser 
parser = htmlparser.HTMLParser() 
parser.unescape(text) 
+0

Es funktioniert gut! vielen Dank – Vor

0

in Javascript:

text = text.replace(/&#39;/g,"'");