Ich habe eine Frage zum Crawlen von Daten von Webseiten. Einige Websites haben Einschränkungen für Anfragen. Wie kann ich in solchen Situationen crawlen?Crawlen von Webseiten mit Einschränkungen
Antwort
für einfache Web-Verschrottung Sie populären Python-Framework verwenden können "lückenhaft" genannt:
Es nutzt CSS-Selektoren für die in HTML-Dateien Auswahl-Tag.
Für Webseiten mit Sicherheitslösungen können Sie Tor verwenden, um Ihre IP-Adresse mit neuen Sitzungen zu ändern.
aber wenn Sie meinen, Websites haben einige Zeichen, dass Sie sie nicht erzeugen können, können Sie „Selen“ simulieren Browsers.
Ich verehre dich !!! Du hast mein Leben gerettet, es war so fantastisch .... <3 –
Beim Crawlen von Websites stellen Sie möglicherweise fest, dass die Rate begrenzt ist, weil Sie zu viele Anfragen an eine Site gestellt haben. Zum Beispiel blockiert meine Website Sie möglicherweise für einige Sekunden, bevor ich Ihnen erlaube, eine weitere Anfrage zu stellen. Diese Limits können sich je nach Site ändern und wie oft und wie oft Sie Anfragen stellen.
Eine Möglichkeit, um diese Grenzen zu umgehen, besteht darin, ein wenig zwischen den Abfragen zu warten, die die Schlafmethoden Ihrer Sprache verwenden. In Python ist dies time.sleep(10)
.
Wenn Sie weiterhin blockiert werden, können Sie versuchen, die Sperrzeit mit zunehmenden Wiederholungszeiträumen zu berücksichtigen. Zum Beispiel wirst du bei einer Anfrage geblockt, warte also 5 Sekunden, versuche es erneut (und werde geblockt), warte 10 Sekunden, versuche es erneut (und werde blockiert), warte 20 Sekunden und versuche es erneut (und werde blockiert), warte 40 Sekunden und so weiter, bis Sie entweder ein Limit erreichen, auf das Sie verzichten möchten, oder der Server Ihnen erlaubt, die Anfrage erfolgreich zu stellen.
- 1. Webseiten schnell re-crawlen
- 2. Scrapy Crawler wird keine Webseiten crawlen
- 3. Bestimmte Daten nach dem Crawlen von Webseiten in Python erhalten
- 4. Crawlen von YouTube-Videokommentaren?
- 5. Crawlen von Websites mit SSO bis OKTA
- 6. Crawlen amazon.com
- 7. Crawlen umgeleitete URLs mit scrapy
- 8. Mit der Parallelisierung von Webseiten mit R
- 9. Scrapy Crawlen 0 Seiten mit 200 Antwortstatus
- 10. Umgang mit bildlastigen Webseiten
- 11. manipulieren Webseiten mit Javascript
- 12. Websitetyp von Webseiten klassifizieren
- 13. Öffnen von Webseiten mit der Suchmaschine
- 14. Bereitstellen von Webseiten mit selbst gehosteten Analysen
- 15. Steuern von externen Webseiten mit Javascript
- 16. schaben Text von Webseiten mit Python 2.7
- 17. Jsessionid stört das Crawlen
- 18. Mehrere Seiten scrappen/crawlen
- 19. Wie Crawlen des Intranets mithilfe von Schreifrosch?
- 20. Interaktion mit Webseiten mit Python
- 21. Crawl eine große Anzahl von Webseiten
- 22. Rekursives Crawlen funktioniert nicht mit Scrapy Spider
- 23. Web Crawlen einer Tabelle von Links
- 24. Diashow von Webseiten (HTML-Diashow)
- 25. Scrapy nicht crawlen Seiten erlaubt von LinkExtractor
- 26. Crawlen Websites zum Extrahieren von E-Mails
- 27. Einschränkungen von Nativescript style
- 28. Fremdschlüssel mit zusätzlichen Einschränkungen?
- 29. Einschränkungen von #! in Skripten
- 30. Rucksack Mischung mit Einschränkungen
Wenn das, was Sie fragen, ist „Ich habe die robots.txt-Datei umgehen will, wie kann ich das tun?“ Die Antwort lautet: "Diese Beschränkung gibt es aus einem bestimmten Grund: Es soll Web-Crawler aus Gebieten fernhalten, in die sie nicht gehören." Wenn das nicht Ihre Frage ist, dann müssen Sie (und sollten) viel klarer darüber sein, was Sie tun möchten und warum. Fügen Sie hinzu, welche Forschung Sie getan haben und was Sie versucht haben, das Problem zu lösen. – JBH