Ich möchte einige HTML-Seiten herunterladen von http://abc.com/view_page.aspx?ID= Die ID ist aus einem Array von verschiedenen Zahlen.Intelligentes Screen Scraping mit verschiedenen Proxies und User-Agenten nach dem Zufallsprinzip?
Ich wäre daran interessiert, mehrere Instanzen dieser URL zu besuchen und die Datei als [ID] .HTML unter Verwendung verschiedener Proxy-IP/-Ports zu speichern.
Ich möchte verschiedene User-Agents verwenden und möchte die Wartezeiten vor jedem Download randomisieren.
Was ist der beste Weg, dies zu tun? urllib2? pycURL? cURL? Was bevorzugen Sie für die anstehende Aufgabe?
Bitte beraten. Danke Leute!
Warum möchten Sie die User-Agents randomisieren? –
Ich möchte nicht verraten, dass ich derjenige bin, der die Seite herunterlädt. Um es zu erhöhen, wenn wir zufällig verschiedene Browser verwenden, das wird meine Anonymität festigen, was sagst du? – ThinkCode