Ich benutze derzeit Python-Anfragen, um ca. 20.000 Seiten von json herunterladen. Ich stoße auf Engpässe wegen der Begrenzung der Rate durch den Server, den ich scrappe, und vielleicht auf einen Mangel an asynchronen Calls/Scheduling. Ich dachte, Scrapy wäre eine gute Lösung, weil ich gehört habe, dass es Funktionen hat, um diese mit dem Kratzen verbundenen Probleme zu bekämpfen. Die Sache ist, das sind die einzigen Teile, die ich brauche, ich brauche nicht spidering/parsing/orm/etc. Mit Blick auf die Dokumente war es unklar, wie ich nur diese Komponenten aussortieren würde. Ich brauche einen Microservice für genau diese Teile von Scrapy. Die Flasche zu Scrapys Django. Ich habe gesehen, dass Grequests mit Async helfen können, aber wenn ich diesen Weg gehe, brauche ich noch eine Ratenbegrenzung und eine Möglichkeit, fehlgeschlagene Anfragen erneut zu versuchen. Kann mir jemand in die richtige Richtung zeigen?Scrapy Throttling und Anfrage Scheduling nur Microservices
-1
A
Antwort
-1
Verwandte Themen
- 1. Scrapy Anfrage + Reaktion + Downloadzeit
- 2. Scrapy Verzögerung Anfrage
- 3. BDD und Microservices
- 4. Microservices und ERP
- 5. Scrapy - nur letztes Ergebnis
- 6. Scrapy nur Ausgänge '['
- 7. Spring Scheduling Task - nur einmal ausführen
- 8. Autorisierung und Benutzer Microservices Design
- 9. Scrapy Shell und Scrapy Splash
- 10. Vagrant und Microservices Dev Environment
- 11. Lehre, Microservices und Zend expressive
- 12. POST Anfrage in Suchabfrage mit Scrapy
- 13. Scrapy: Begrenzen Sie die Anzahl der Anfrage oder Anfrage Bytes
- 14. Absenden von Post-Anfrage in Scrapy
- 15. Round Robin Scheduling und IO
- 16. Throttling in Bokeh Anwendung
- 17. Set-Header für Scrapy Shell-Anfrage
- 18. Scrapy Objekt nicht auf Anfrage Füllen
- 19. Auditing Microservices
- 20. Throttling MSMQ Nachrichten/Priorisierung Nachrichten
- 21. AWS Lambda für mobile App und Throttling
- 22. Play WS API: Throttling Request Preise
- 23. Scheduling & DST
- 24. Fuzzy Scheduling
- 25. AlarmManager Scheduling
- 26. Throttling C++ - Threads
- 27. Seriell: write() throttling?
- 28. Throttling-Netzwerkgeschwindigkeit für WebSockets
- 29. Throttling mit Urllib2
- 30. Sicherheit zwischen Microservices
Das ist ein interessanter Ansatz. Würde Tor dabei helfen oder zu viel Overhead haben/zu langsam sein, um die Dinge zu beschleunigen. – sajattack
Tor wäre auch ein anderer Ansatz, ich kann nicht sagen, dass ich es versucht habe. – eLRuLL
Tor könnte helfen, aber Sie benötigen einige andere Bibliotheken wie Stem für die Steuerung von Tor aus Python-Code, und müssen einige Logik auslösen, wenn Tor Identity (Proxy) geändert werden sollte. –