2016-05-17 4 views
0

Aber wenn ich Suppe drucke, fand ich es anders mit dem Webquellcode, den ich wirklich will.python parse lib gibt den Webquellcode nicht korrekt zurück

Zum Beispiel ist dies der Web-Quellcode unter:

{div class="zh-question-followers-sidebar"} 
{div class="zg-gray-normal"} 

{a href="/question/24269892/followers"}{strong}109141{/strong}{/a} 
people focus on the questions 

{/div} 

Aber wenn ich die xml bekommen verwenden beautifulsoup, ist es nicht dem Code, den Weg zu zeigen. Stattdessen zeigt es wie folgt aus:

{div class="zm-side-section"} 
{div class="zm-side-section-inner zg-gray-normal" id="zh-question-side-header-wrap"} 
{button class="follow-button zg-follow zg-btn-green" data-follow="q:m:button" data-id="1889792"}focus question{/button} 

109143 
people focus on the questions 

{/div} 
{/div} 

Wer kann mir sagen, warum und wie man die richtige Quellcode zu bekommen?

Antwort

1

Nicht alle Clients werden auf derselben Seite bedient. Sie sollten die User-Agenten Ihrer Anfrage zu dem beliebten Desktop-Browser eingestellt:

headers = {'User-Agent': '''Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) 
          AppleWebKit/537.36 (KHTML, like Gecko) 
          Chrome/39.0.2171.95 Safari/537.36'''} 

response = requests.get(url, headers=headers) 
+0

durch die Header hinzugefügt ich jetzt den richtigen Web-Quellcode erhalten kann, danke! –

Verwandte Themen