Ich benutze Scrapy zum Crawlen alter Websites, die ich besitze, verwende ich den Code unten als meine Spinne. Es macht mir nichts aus, dass Dateien für jede Webseite oder eine Datenbank mit all dem darin enthaltenen Inhalt ausgegeben werden. Aber ich muß in der Lage sein, um die Spinne kriecht mit der ganzen Sache zu haben, um mich mit jeder einzelnen URL setzen in die ich derzeitGet Scrapy Spider zum Crawlen der gesamten Website
import scrapy
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["www.example.com"]
start_urls = [
"http://www.example.com/contactus"
]
def parse(self, response):
filename = response.url.split("/")[-2] + '.html'
with open(filename, 'wb') as f:
f.write(response.body)
Sie möchten wahrscheinlich zu dieser Regel "folgen = True" hinzufügen, um Crawlen Links fortsetzen. –
Ja, danke. –