Scraping im Cache gespeicherten Seiten

2016-10-14 5 views 0 likes

Ich verwende scrapy um einige Web-Inhalte, die auf diese Weise zu holen:Scraping im Cache gespeicherten Seiten

class PitchforkTracks(scrapy.Spider): 
    name = "pitchfork_tracks" 
    allowed_domains = ["pitchfork.com"] 
    start_urls = [ 
        "http://pitchfork.com/reviews/best/tracks/?page=1", 
        "http://pitchfork.com/reviews/best/tracks/?page=2", 
        "http://pitchfork.com/reviews/best/tracks/?page=3", 
    ]

alles funktioniert gut.

jetzt, anstatt die Seiten direkt zu treffen, würde ich googlecaches der gleichen Seiten kratzen.

was ist das richtige syntax, um das zu erreichen?

PS: Ich habe versucht "cache:http://pitchfork.com/reviews/best/tracks/?page=1",, vergeblich.

Quelle

2016-10-14 data_garden