Scrapy Crawler wird keine Webseiten crawlen

Ich habe für einen Tag versucht, um diesen Crawler arbeiten zu lassen und immer Fehler zu bekommen kann jemand vorschlagen, um es zum Laufen zu bekommen. der Haupt Spinne Code istScrapy Crawler wird keine Webseiten crawlen

import scrapy 
from scrapy.spiders import Spider 
from scrapy.selector import Selector 


class gameSpider(scrapy.Spider): 
name = "game_spider.py" 
allowed_domains = ["*"] 
start_urls = [ 
    "http://www.game.co.uk/en/grand-theft-auto-v-with-gta-online-3-500-000-1085837?categoryIdentifier=706209&catGroupId=" 
] 

def parse(self, response): 
    sel = Selector(response) 
    sites = sel.xpath('//ul[@class="directory-url"]/li') 
    items = [] 

    for site in sites: 
     item = Website() 
     item['name'] = site.xpath('//*[@id="details301149"]/div/div/h2/text()').extract() 
     """item['link'] = site.xpath('//a/@href').extract() 
     item['description'] = site.xpath('//*[@id="overview"]/div[3]()').re('-\s[^\n]*\\r')""" 
     items.append(item) 

    print items 
    return items

Der Artikel Code ist

import scrapy 


class GameItem(Item): 
    name = Field() 
    pass

Dank fortschrittlicher James

Quelle

2016-04-07 j.white

@danmash hat recht. Möglicherweise handelt es sich um eine dynamische Seite. Schauen Sie auf [Wartet] (http://selenium-python.readthedocs.org/waits.html) –

OK danke beides, das hilft –

Ihr start_urls Link kehrt erorr 500. Es ist kein Artikel ist.

In [7]: sites = response.xpath('//ul[@class="directory-url"]/li') 

In [8]: sites 
Out[8]: []

Quelle

2016-04-07 08:36:49

Scrapy Crawler wird keine Webseiten crawlen

Antwort

Verwandte Themen