2010-04-18 12 views

Antwort

12

SeleniumRC mit selenium.py ist eine Alternative (und eine der wenigen Optionen praktikabel, wenn die Seiten, die Sie kratzen müssen eine wichtige haben, „strukturelle“ Rolle für Javascript-Operationen, insb. AJAX-y diejenigen, da Mechanize nicht ausführt das Javascript auf den Seiten scraping).

7

Für Scraping und Formularbehandlung können Sie lxml.html verwenden (es automatisiert jedoch nicht das Holen und Cookies).

scrapy ist eine Bibliothek speziell für das Scraping.

3

Ich habe twill für eine Menge meiner Testanforderungen verwendet. Es funktioniert als eigenständige Sprache für "Web-Browsing" oder als eine Bibliothek von Python. Es nutzt tatsächlich Mechanize unter der Haube, also bin ich mir nicht sicher, ob es Ihren Anforderungen entspricht - stoßen Sie auf Probleme, die Mechanize innewohnen, oder würden Sie von einer höheren Ebene profitieren?

3

ich mit Splinter erfolgreich waren, eine Lösung auf der Selenium gebaut - während mehr pythonic API bereitstellt.

Verwandte Themen