Hier ist eine Struktur einer Website, die ich mit scrapy Schrott, wo * ist eine Seite und --- Link angibt. Ich möchte Daten von # Seiten auskratzen. Ich habe bereits einen Scraper gemacht, der Daten von einer einzigen # Seite scrappen kann.Wie kann man mehrere Seiten mit Scrapy verschrotten?
import scrapy
class MyItem(scrapy.Item):
topic = scrapy.Field()
symptoms = scrapy.Field()
class QuotesSpider(scrapy.Spider):
name = "medical"
allowed_domains = ['medlineplus.gov']
start_urls = ['https://medlineplus.gov/ency/article/000178.htm']
def parse(self, response):
item = MyItem()
item["topic"] = response.css('h1.with-also::text').extract_first()
item["symptoms"] = response.css("article div#section-2 li::text").extract()
yield item
Ausgang Homepage ist https://medlineplus.gov/encyclopedia.html
ich Informationen über alle Krankheiten in der Enzyklopädie kratzen will.
danke! Jetzt habe ich verstanden, wie man Callback benutzt. Es gibt Erklärungen in vielen Dokumenten, aber das hat meine Zweifel auf einen Schlag geklärt. Übrigens gibt es seit ich neu auf der Scrapy bin, gute Webseiten/Tutorials zum Scrapy mit guten Beispielen und Erklärungen? Es wird viel helfen. Danke noch einmal. –
@ ShubhamB. Sicher, es gibt viele Informationen und Tutorials im Internet - das offizielle Tutorial in den Scrapy-Dokumenten ist ziemlich detailliert. Oder es ist, dass newcoder.io Tutorial (http://newcoder.io/Intro-Scrape/). Eine weitere gute Möglichkeit, Ihre scrapy Fähigkeiten zu verbessern, ist zu gehen, über die [most scrapy Fragen abgestimmt SO] (http://stackoverflow.com/questions/tagged/scrapy?sort=votes&pageSize=10). Vielen Dank. – alecxe