2016-04-07 15 views
0

Ich habe für einen Tag versucht, um diesen Crawler arbeiten zu lassen und immer Fehler zu bekommen kann jemand vorschlagen, um es zum Laufen zu bekommen. der Haupt Spinne Code istScrapy Crawler wird keine Webseiten crawlen

import scrapy 
from scrapy.spiders import Spider 
from scrapy.selector import Selector 


class gameSpider(scrapy.Spider): 
name = "game_spider.py" 
allowed_domains = ["*"] 
start_urls = [ 
    "http://www.game.co.uk/en/grand-theft-auto-v-with-gta-online-3-500-000-1085837?categoryIdentifier=706209&catGroupId=" 
] 

def parse(self, response): 
    sel = Selector(response) 
    sites = sel.xpath('//ul[@class="directory-url"]/li') 
    items = [] 

    for site in sites: 
     item = Website() 
     item['name'] = site.xpath('//*[@id="details301149"]/div/div/h2/text()').extract() 
     """item['link'] = site.xpath('//a/@href').extract() 
     item['description'] = site.xpath('//*[@id="overview"]/div[3]()').re('-\s[^\n]*\\r')""" 
     items.append(item) 

    print items 
    return items 

Der Artikel Code ist

import scrapy 


class GameItem(Item): 
    name = Field() 
    pass 

Dank fortschrittlicher James

+0

@danmash hat recht. Möglicherweise handelt es sich um eine dynamische Seite. Schauen Sie auf [Wartet] (http://selenium-python.readthedocs.org/waits.html) –

+0

OK danke beides, das hilft –

Antwort

0

Ihr start_urls Link kehrt erorr 500. Es ist kein Artikel ist.

In [7]: sites = response.xpath('//ul[@class="directory-url"]/li') 

In [8]: sites 
Out[8]: [] 
Verwandte Themen