Web Daten Scraping mit Scrapy

Ich benutze Scrapy kratzen justdial.com aber der Code scheint nicht zu funktionieren. Bitte helfen Sie mir, das zu beheben. Ich starte es mit dem Befehl "scrapy crawl justdial -o items.csv -t csv" vom Terminal.Web Daten Scraping mit Scrapy

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 
from scrapy.selector import HtmlXPathSelector 
from justdial_sample.items import JustdialSampleItem 

class MySpider(CrawlSpider): 
    name = "justdial" 
    allowed_domains = ["www.justdial.com"] 
    start_urls = ["https://www.justdial.com/"] 

    rules = (Rule (SgmlLinkExtractor(allow=("index\d00\.html", 
    ),restrict_xpaths=('//p[@id="nextpage"]',)) 
    , callback="parse_items", follow=True), 
    ) 

    def parse(self, response): 
     hxs = HtmlXPathSelector(response) 
     titles = hxs.select("//p") 
     items = [] 
     for titles in titles: 
      item = JdItem() 
      item ["title"] = titles.select("a/text()").extract() 
      item ["link"] = titles.select("@/href").extract() 
      item.append(item) 
     return items

Dies ist der Code, den ich verwendet habe.

Quelle

2017-06-06 dev.tex

AFAIK Justdial blockiert alle anderen Schaber von Google auseinander settings.py. Es wird nicht nur durch die Datei ['robots.txt'] (https://us.justdial.com/robots.txt) eingeschränkt, sondern es werden keine IP-Adressen zugelassen. Sie können versuchen, mit 'USER_AGENT' string in scrapy herumzuspielen oder scrapy splash zu versuchen. –

Wenn Sie Ausgabe-Protokoll anzeigen können, wird es einfacher sein, Ihnen zu helfen.

Normalerweise sollten Sie die richtigen Header wie im Browser, etc. User-Agent hinzufügen. Sie können alle Header in Firebug überprüfen und Sie können Header in Ihrem Spider überprüfen.

print response.request.headers

UPDATE: Sie sollten diese Zeile hinzufügen

USER_AGENT = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/53.0'

Quelle

2017-06-07 03:55:19 Verz1Lka

Ich brauche 10 Ruf um Bilder zu posten. Also gebe ich dir stattdessen eine Laufwerksverbindung. –

https://drive.google.com/file/d/0B10eUYMamUyocjNvYl81WXk5ZGs/view?usp=drivesdk –

habe ich bereits getan. Es funktioniert immer noch nicht –

Web Daten Scraping mit Scrapy

Antwort

Verwandte Themen