ich jede der folgenden URLs einzeln zugreifen kann: http://www.example.com/{.*}.html
Python: Auflistung aller URLs einer Website ohne Index
jedoch der Zugriff auf die Hauptseite http://www.example.com
irgendwie eingeschränkt, und ich bin auf eine Fehlerseite umgeleitet Anzeige: Erreur 403 - Refus de traitement de la requête (Interdit - Forbidden)
.
Gibt es eine Möglichkeit, alle URLs der HTML-Seiten aufzulisten, die unter dieser Domain gehostet werden?
Ich habe versucht, mit 'scrapy' konnte aber keinen Artikel Schrott. Habe die folgende Nachricht erhalten: '[scrapy] DEBUG: Telnet Konsole hört auf 127.0.0.1:6023 [scrapy] DEBUG: Crawled (403) (Referer: None) ['partially '] [scrapy] DEBUG: Antwort ignorieren <403 http://www.example.com>: HTTP-Statuscode wird nicht behandelt oder nicht erlaubt' –
Sie können nicht auf eine verbotene Site zugreifen (Fehler 403). Sie müssen von http://www.example.com/index.html oder einer anderen Website starten, die viele Links enthält. Crawlen wird rekursiv zu allen Links auf der Website gehen, aber es kann immer noch nicht auf eine verbotene Seite zugreifen. – Brian