Ich wollte eine website kratzen. Die Extraktion, die ich machen möchte, ist die Dokumentenliste, der Name des Autors und das Datum. Ich habe mir ein paar Scrapy-Spider-Videos angeschaut und war in der Lage, den 3-Shell-Script-Befehl herauszufinden, der die erforderlichen Daten von der Website liefert. Die Befehle sindMultiple Scaping mit Scrapy Spider
scrapy shell https://www.cato.org/research/34/commentary
für Datum:
response.css('span.date-display-single::text').extract()
für author:
response.css('p.text-sans::text').extract()
für die Dokumentenlinks auf der Seite
response.css('p.text-large.experts-more-h > a::text').extract()
Ich versuche, es zu bekommen durch Python aber alles umsonst. Da gibt es mehrere Daten. Hier
ist der Python-Code:
import scrapy
class CatoSpider(scrapy.Spider):
name = 'cato'
allowed_domains = ['cato.org']
start_urls = ['https://www.cato.org/research/34/commentary']
def parse(self, response):
pass
Sie 'css' , besser ist 'xpath' – AndMar
Ich versuche, ein weiteres Modul zu erstellen, und die Aufgabe wird sein, Artikelverknüpfung zu klicken und Datum, Autor und Artikeltitel zu extrahieren. Und tun dies für alle Artikel Link die Webseite (cato.org/research/34/commentary). Bitte helfen Sie – Shad