2012-11-19 5 views
6

Ich schreibe einen Web-Scraper für eine bestimmte Webseite und ich mache dies mit "urllib2.Request (MyURL)" und "BeautifulSoup", aber das Problem ist, dass es eine Paging-Seite gibt in myURL und der nächsten Seite geladen wird (in gleichen myURL/Seite) durch klicken auf einen Link, hinter diesem Link die Javascript-Methode alsFühren Sie Javascript-Methode auf der Webseite von Python

{ javascript:__doPostBack('rptPagingBottom$ctl01$btnPage','') }. 

nun ohne Ausführung dieser Javascript-Funktion von Python, ich kann kein geschrieben bekommen vollständige Seitenauflistung Wie kann ich diese Javascript-Methode von Python aufrufen, damit ich alle Seiten dieser Webseite bekommen kann?

Ich fand eine verwandte Frage here, wo es empfohlen wird zu verwenden (Rhino, V8, SeaMonkey), aber ich habe das überhaupt nicht bekommen. Ich brauche einen Beispielcode, wenn es möglich ist.

Antwort

1

Versuchen Sie Selenium für diese Art von schmutziger Arbeit (Inline js, Ajax Seite laden). Es kann genau emulieren, was Browser mit Python und Browser-Treiber machen können.

Sie können einige Informationen über die Verwendung als Crawler erhalten, indem Sie mit dem Suchbegriff "selen crawler" google suchen.

Verwandte Themen