2017-11-08 3 views

Antwort

0

Auch wenn es beim Zugriff über einen Browser als HTML gerendert wird, gibt der Server eine XML an Python zurück. Wenn Sie print(html.read()) sehen, werden Sie das XML sehen.

In diesem XML die <a> Tags mit <link> Tags ersetzt werden (ohne Attribute), so müssen Sie den Code ändern, reflektieren:

from urllib import urlopen 
from bs4 import BeautifulSoup 

html = urlopen("http://feeds.bbci.co.uk/news/entertainment_and_arts/rss.xml") 
bsObj = BeautifulSoup(html.read(),"html.parser"); 

for link in bsObj.find_all('link'): 
    print(link.text) 

# http://www.bbc.co.uk/news/ 
# http://www.bbc.co.uk/news/ 
# http://www.bbc.co.uk/news/entertainment-arts-41914725 
# http://www.bbc.co.uk/news/entertainment-arts-41886207 
# http://www.bbc.co.uk/news/entertainment-arts-41886475 
# ... 
# ... 
Verwandte Themen