So rufen Sie die nächste Seite in meiner Analyse - Scrapy

Ich habe alles versucht, aber ich kann nicht scheinen, wie ich die nächste Seite in der parse_category aufrufen kann.So rufen Sie die nächste Seite in meiner Analyse - Scrapy

Ich habe versucht LinkExtractor wie ich es tue, wenn ich direkt zu einer Kategorie-Seite gehe, aber das hat nicht funktioniert.

import scrapy.selector 
import urlparse 
from scrapy.spiders import CrawlSpider, Rule 
from scrapy.http import Request 
from msh_final.items import CrawlerMshFinalItem 


def complete_url(string): 
    return "http://www.mediamarkt.be" + string 


def get_base_url(url): 
    if url != "": 
     u = urlparse.urlparse(url) 
     return "%s://%s" % (u.scheme, u.netloc) 
    else: 
     return "" 


def encode(str): 
    return str.encode('utf8', 'ignore') 


class msh_finalSpider(CrawlSpider): 
    name = 'msh_final' 
    start_urls = ['http://www.mediamarkt.be/mcs/productlist/_Telefoon-Navigatie,98952,509451.html?langId=-17'] 

    def parse(self, response): 
     items = response.xpath('//ul[@class="infield cf"]//div[@class="infield-wrapper"]/h2/a/@href') 
     for item in items: 
      link = item.extract() 
      yield Request(complete_url(link), callback=self.parse_category) 

    def parse_category(self, response): 
     items = response.xpath("//ul[@class='products-list']/li/div") 
     for item in items: 
      msh = CrawlerMshFinalItem() 
      msh['item_price'] = encode(item.xpath('normalize-space(.//aside/div/div/div/text())').extract()[0]) 
      msh['item_name'] = encode(item.xpath('normalize-space(.//div/h2/a/text())').extract()[0]) 
      yield msh

Quelle

2016-05-02 Wouter

Sie sollten Ihre Spinne aus Spider statt CrawlSpider und Nutzung folgenden Code Inherite:

class msh_finalSpider(Spider): 
    name = 'msh_final' 
    start_urls = ['http://www.mediamarkt.be/mcs/productlist/_Telefoon-Navigatie,98952,509451.html?langId=-17'] 

    def parse(self, response): 
     items = response.xpath('//ul[@class="infield cf"]//div[@class="infield-wrapper"]/h2/a/@href') 
     for item in items: 
      link = item.extract() 
      yield Request(complete_url(link), callback=self.parse_category) 

    def parse_category(self, response): 
     items = response.xpath("//ul[@class='products-list']/li/div") 
     for item in items: 
      msh = CrawlerMshFinalItem() 
      msh['item_price'] = encode(item.xpath('normalize-space(.//aside/div/div/div/text())').extract()[0]) 
      msh['item_name'] = encode(item.xpath('normalize-space(.//div/h2/a/text())').extract()[0]) 
      yield msh 

     new_link = response.xpath('//li[@class="pagination-next"]/a/@href').extract()[0] 
     yield Request(
      complete_url(new_link), 
      callback=self.parse_category 
     )

Quelle

2016-05-02 11:02:40

So rufen Sie die nächste Seite in meiner Analyse - Scrapy

Antwort

Verwandte Themen