Ich mache Web Scraping mit Selen Webdriver in Python mit Proxy.Selen Webdriver/Beautifulsoup + Web Scraping + Fehler 416
Ich möchte mehr als 10k Seiten einzelner Website mit diesem scraping durchsuchen.
Problem verwendet diesen Proxy Ich bin in der Lage, Anfrage nur für einzelne Zeit zu senden. Wenn ich eine weitere Anfrage über denselben Link oder einen anderen Link dieser Site sende, erhalte ich einen Fehler von 416 (Art von IP-Blockierung mit Firewall) für 1-2 Stunden.
Hinweis: Ich kann alle normalen Websites mit diesem Code scraping, aber diese Website hat eine Art von Sicherheit, die mich für Scraping verhindern.
Hier ist Code.
profile = webdriver.FirefoxProfile()
profile.set_preference("network.proxy.type", 1)
profile.set_preference(
"network.proxy.http", "74.73.148.42")
profile.set_preference("network.proxy.http_port", 3128)
profile.update_preferences()
browser = webdriver.Firefox(firefox_profile=profile)
browser.get('http://www.example.com/')
time.sleep(5)
element = browser.find_elements_by_css_selector(
'.well-sm:not(.mbn) .row .col-md-4 ul .fs-small a')
for ele in element:
print ele.get_attribute('href')
browser.quit()
Jede Lösung ??