2017-02-15 4 views
0

Ich versuche, diese url für Forschung Zweck zu kriechen, aber ich habe ein unvollständiges Ergebnis:Unvollständige Ergebnis beim Aufruf der Funktion find() beautifulsoup

opener = urllib.request.build_opener() 
opener.addheaders = [('User-Agent', 'Mozilla/5.0')] 
response = opener.open(url) 
soup = BeautifulSoup(response, 'html.parser') 
article = soup.find("div", { "class" : "entry" }) 
print(article) 

Es gib mir dieses Ergebnis:

<div class="entry"> 
<header><strong>Racial Forensics in an Age of Race Denial</strong></header></div> 
Aber

, wenn ich an der Quellcode der Seite suche, kann ich viel mehr sehen:

<div class="entry"> 
<header><strong>Racial Forensics in an Age of Race Denial</strong></p> 
</header> 
<p>Austen Layard<br/> 
<a href="http://www.theoccidentalobserver.net/2014/01/racial-forensics-in-an-age-of-race-denial/"><strong>Occidental Observer</strong></a><br/> 
February 3, 2014</p> 
.... 
</div> 

T Der Unterschied zwischen dieser URL und vielen anderen, die ich verarbeitet habe, ist das Vorhandensein des Tags header.

Ist dieser Tag der Ursprung meines Problems? Wie kann ich die Gesamtheit des Inhalts des Tags div abrufen?

+0

@MYGz funktioniert auch nicht – mel

Antwort

1
soup = BeautifulSoup(response, 'lxml') 

html.parser ist instabil und hoch unrecommended, standardmäßig BS4 lxml verwenden, lassen Sie uns mit Standard.

Verwandte Themen