Ich verwende scrapy
um einige Web-Inhalte, die auf diese Weise zu holen:Scraping im Cache gespeicherten Seiten
class PitchforkTracks(scrapy.Spider):
name = "pitchfork_tracks"
allowed_domains = ["pitchfork.com"]
start_urls = [
"http://pitchfork.com/reviews/best/tracks/?page=1",
"http://pitchfork.com/reviews/best/tracks/?page=2",
"http://pitchfork.com/reviews/best/tracks/?page=3",
]
alles funktioniert gut.
jetzt, anstatt die Seiten direkt zu treffen, würde ich google
caches
der gleichen Seiten kratzen.
was ist das richtige syntax
, um das zu erreichen?
PS: Ich habe versucht "cache:http://pitchfork.com/reviews/best/tracks/?page=1",
, vergeblich.