Ich probiere die scrapy CrawlSpider Unterklasse zum ersten Mal aus. Ich habe die folgende Spinne stark von dem docs Beispiel bei https://doc.scrapy.org/en/latest/topics/spiders.html#crawlspider-example basierend erstellt:Einstellregeln mit scrapy crawlspider
class Test_Spider(CrawlSpider):
name = "test"
allowed_domains = ['http://www.dragonflieswellness.com']
start_urls = ['http://www.dragonflieswellness.com/wp-content/uploads/2015/09/']
rules = (
# Extract links matching 'category.php' (but not matching 'subsection.php')
# and follow links from them (since no callback means follow=True by default).
# Rule(LinkExtractor(allow=('category\.php',), deny=('subsection\.php',))),
# Extract links matching 'item.php' and parse them with the spider's method parse_item
Rule(LinkExtractor(allow='.jpg'), callback='parse_item'),
)
def parse_item(self, response):
self.logger.info('Hi, this is an item page! %s', response.url)
print(response.url)
Ich versuche, die Spinne zu Loop-Start am prescibed Verzeichnis zu bekommen und dann extrahieren Sie alle ‚.jpg‘ Links in dem Verzeichnis, aber ich sehe:
2016-09-29 13:07:35 [scrapy] INFO: Spider opened
2016-09-29 13:07:35 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-09-29 13:07:35 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-09-29 13:07:36 [scrapy] DEBUG: Crawled (200) <GET http://www.dragonflieswellness.com/wp-content/uploads/2015/09/> (referer: None)
2016-09-29 13:07:36 [scrapy] INFO: Closing spider (finished)
Wie kann ich das funktioniert?
Danke, das hilft, aber ich versuche immer noch zu verstehen, wie das funktioniert. Ich möchte die JPG-Dateien in diesem Fall herunterladen, also könnte ich nach einem Beispiel fragen, einschließlich der Pipeline-Funktion? – user61629
Überprüfen Sie meine bearbeitete Antwort. – mihal277
Danke, dass du dir die Zeit genommen hast. Ich bin daran interessiert, verschiedene Ansätze zu sehen, die Menschen nehmen. – user61629