Ich möchte einen allgemeinen Scraper machen, der alle Daten von jeder Art von Website einschließlich AJAX-Websites crawlen und abschaben kann. Ich habe das Internet ausgiebig durchsucht, konnte aber keinen richtigen Link finden, der mir erklären könnte, wie Scrapy und Splash zusammen AJAX-Websites abkratzen können (einschließlich Paginierung, Formulardaten und Klicken auf die Schaltfläche, bevor die Seite angezeigt wird). Jeder Link, den ich erwähnt habe, sagt mir, dass Javascript-Websites mit Splash gerendert werden können, aber es gibt kein gutes Tutorial/Erklärung über die Verwendung von Splash zum Rendern von JS-Websites. Bitte geben Sie mir keine Lösungen in Bezug auf die Verwendung von Browsern (Ich möchte alles programmgesteuert tun, kopflose Browservorschläge sind willkommen..aber ich möchte Splash verwenden).Wie scrape AJAX-basierte Websites mit Scrapy und Splash?
class FlipSpider(CrawlSpider):
name = "flip"
allowed_domains = ["www.amazon.com"]
start_urls = ['https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=mobile']
rules = (Rule(LinkExtractor(), callback='lol', follow=True),
def parse_start_url(self,response):
yield scrapy.Request(response.url, self.lol, meta={'splash':{'endpoint':'render.html','args':{'wait': 5,'iframes':1,}}})
def lol(self, response):
"""
Some code
Haben Sie [splash doc] (https://github.com/scrapy-plugins/scrapy-splash#installation) befolgt? Was ist dein Problem genau? –
Ja, habe ich getan. Splash Doc erwähnt nur die Befehle, die wir verwenden können. Ich will wissen, wie man sie benutzt, um das Javascript einer Webseite laufen zu lassen, um den dynamischen Inhalt zu bekommen ... – Rohan
Gut, wenn Sie keine spezifische Frage oder ein Problem über Spritzen haben, kopiere ich das Dokument nicht ... Wenn Sie sich beziehen zu dem Dokument sollten Sie in der Lage sein, eine JavaScript-basierte Website zu crawlen –