Schaben: verschachtelte URL-Daten Schaben

Ich habe eine Website Namen https://www.grohe.com/in In dieser Seite i eine Art von Bad-Armaturen https://www.grohe.com/in/25796/bathroom/bathroom-faucets/grandera/ In dieser Seite gibt es mehr Produkte/verknüpften products.I bekommen wollen jedes Produkt url und Schrott bekommen die Daten.Zum, die ich so geschrieben ...Schaben: verschachtelte URL-Daten Schaben

Meine items.py Datei sieht aus wie

from scrapy.item import Item, Field 

class ScrapytestprojectItem(Item): 
    producturl=Field() 
    imageurl=Field() 
    description=Field()

Spinne Code

import scrapy 
from ScrapyTestProject.items import ScrapytestprojectItem 
class QuotesSpider(scrapy.Spider): 
    name = "nestedurl" 
    allowed_domains = ['www.grohe.com'] 
    start_urls = [ 
    'https://www.grohe.com/in/7780/bathroom/bathroom-faucets/essence/', 
    ] 

    def parse(self, response): 
    for divs in response.css('div.viewport div.workspace div.float-box'): 
     item = {'producturl': divs.css('a::attr(href)').extract(), 
       'imageurl': divs.css('a img::attr(src)').extract(), 
       'description' : divs.css('a div.text::text').extract() + divs.css('a span.nowrap::text').extract()} 
     next_page = response.urljoin(item['producturl']) 
     yield scrapy.Request(next_page, callback=self.parse, meta={'item': item})

ist

wenn ich den scrapy lief ** scrapy crawl nestedurl -o nestedurl.csv ** leere Datei erstellt. Die Konsole ist

2017-02-15 18:03:11 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6024 
2017-02-15 18:03:13 [scrapy] DEBUG: Crawled (200) <GET https://www.grohe.com/in/7780/bathroom/bathroom-faucets/essence/> (referer: None) 
2017-02-15 18:03:13 [scrapy] ERROR: Spider error processing <GET https://www.grohe.com/in/7780/bathroom/bathroom-faucets/essence/> (referer: None) 
Traceback (most recent call last): 
File "/usr/lib/python2.7/dist-packages/scrapy/utils/defer.py", line 102, in iter_errback 
yield next(it) 
     File "/usr/lib/python2.7/dist-  packages/scrapy/spidermiddlewares/offsite.py", line 28, in  process_spider_output 
    for x in result: 
     File "/usr/lib/python2.7/dist- packages/scrapy/spidermiddlewares/referer.py", line 22, in <genexpr> 
     return (_set_referer(r) for r in result or()) 
     File "/usr/lib/python2.7/dist-  packages/scrapy/spidermiddlewares/urllength.py", line 37, in <genexpr> 
     return (r for r in result or() if _filter(r)) 
     File "/usr/lib/python2.7/dist- packages/scrapy/spidermiddlewares/depth.py", line 54, in <genexpr> 
    return (r for r in result or() if _filter(r)) 
File "/home/pradeep/ScrapyTestProject/ScrapyTestProject/spiders/nestedurl.py", line 15, in parse 
    next_page = response.urljoin(item['producturl']) 
     File "/usr/lib/python2.7/dist-packages/scrapy/http/response/text.py", line 72, in urljoin 
    return urljoin(get_base_url(self), url) 
     File "/usr/lib/python2.7/urlparse.py", line 261, in urljoin 
    urlparse(url, bscheme, allow_fragments) 
    File "/usr/lib/python2.7/urlparse.py", line 143, in urlparse 
    tuple = urlsplit(url, scheme, allow_fragments) 
    File "/usr/lib/python2.7/urlparse.py", line 176, in urlsplit 
    cached = _parse_cache.get(key, None) 
    TypeError: unhashable type: 'list' 
    2017-02-15 18:03:13 [scrapy] INFO: Closing spider (finished) 
    2017-02-15 18:03:13 [scrapy] INFO: Dumping Scrapy stats: 
      {'downloader/request_bytes': 253, 
      'downloader/request_count': 1, 
     'downloader/request_method_count/GET': 1, 
      'downloader/response_bytes': 31063, 
    'downloader/response_count': 1, 
     'downloader/response_status_count/200': 1, 
      'finish_reason': 'finished', 
     'finish_time': datetime.datetime(2017, 2, 15, 12, 33, 13, 396542), 
     'log_count/DEBUG': 3, 
      'log_count/ERROR': 3, 
      'log_count/INFO': 7, 
      'response_received_count': 1, 
     'scheduler/dequeued': 1, 
     'scheduler/dequeued/memory': 1, 
      'scheduler/enqueued': 1, 
      'scheduler/enqueued/memory': 1, 
      'spider_exceptions/TypeError': 1, 
      'start_time': datetime.datetime(2017, 2, 15, 12, 33, 11, 568424)} 
      2017-02-15 18:03:13 [scrapy] INFO: Spider closed (finished)

Quelle

2017-02-15 mvnpgh

Ich denke Artikel divs.css('a::attr(href)').extract() manchmal eine Liste zurück, die, wenn sie in urljoin führt verwendet, die urlparse zum Absturz bringt, da es keine Liste Hash kann.

Quelle

2017-02-15 13:01:40

URL wird nicht korrekt generiert.

Sie sollten die Protokollierung aktivieren und einige Meldungen protokollieren, um den Code zu debuggen.

import scrapy, logging 
from ScrapyTestProject.items import ScrapytestprojectItem 
class QuotesSpider(scrapy.Spider): 
    name = "nestedurl" 
    allowed_domains = ['www.grohe.com'] 
    start_urls = [ 
    'https://www.grohe.com/in/7780/bathroom/bathroom-faucets/essence/', 
    ] 

    def parse(self, response): 
    for divs in response.css('div.viewport div.workspace div.float-box'): 
     item = {'producturl': divs.css('a::attr(href)').extract(), 
       'imageurl': divs.css('a img::attr(src)').extract(), 
       'description' : divs.css('a div.text::text').extract() + divs.css('a span.nowrap::text').extract()} 
     next_page = response.urljoin(item['producturl']) 

     logging.info(next_page) # see what it prints in console. 

     yield scrapy.Request(next_page, callback=self.parse, meta={'item': item})

Quelle

2017-02-15 15:18:40 Umair

generierte URL ist wie ‚/ in/8257/Bad/Bad-Armaturen/Wesen/Produkt-details/product = 19408-G145 & Farbe? = 000 & material = 19408000 'sollte es an' www.grohe.in 'url angehängt werden, dann macht es Sinn – mvnpgh

loger info [https://www.grohe.com/in/8257/bathroom/bathroom-faucets/essence/product- Details /? Produkt = 33623-G145 & Farbe = 000 & Material = 33623000] .... sameway mehrere URLs gebildet werden – mvnpgh

Nein, Sie können manuell join URL wie '" www.grohe.in "+ item ['producturl']' – Umair

item = {'producturl': divs.css('a::attr(href)').extract(), # <--- issue here 
      'imageurl': divs.css('a img::attr(src)').extract(), 
      'description' : divs.css('a div.text::text').extract() + divs.css('a span.nowrap::text').extract()} 
    next_page = response.urljoin(item['producturl']) # <--- here item['producturl'] is a list

diesen Einsatz zu beheben .extract_first(''):

item = {'producturl': divs.css('a::attr(href)').extract_fist(''), 
      'imageurl': divs.css('a img::attr(src)').extract_first(''), 
      'description' : divs.css('a div.text::text').extract() + divs.css('a span.nowrap::text').extract()} 
    next_page = response.urljoin(item['producturl'])

Quelle

2017-02-15 17:48:39 Granitosaurus

In meinem Spider-Code habe ich .extract_first() /. extract_first ('') .still selbe Ausgabe no change.samedes in scrapy shell getestet mit .extract() it self.it scheint gut – mvnpgh

producturl ist wie ---->/in/8257/bad/badarmaturen/essence/produkt-details /? produkt = 19408-G145 & color = 000 & material = 19408000 danach wir den Link als "https://www.grohe.com/in/8257/bathroom/bathroom-faucets/essence/product-details/?product=19408-G145&color=000&material=19408000" erstellen – mvnpgh

Schaben: verschachtelte URL-Daten Schaben

Antwort

Verwandte Themen