# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
class InfoSpider(scrapy.Spider):
name = 'info'
allowed_domains = ['womenonlyconnected.com']
start_urls =['http://www.womenonlyconnected.com/socialengine/pageitems/index']
def parse(self, response):
urls = response.xpath('//h3/a/@href').extract()
for url in urls:
absolute_url = response.urljoin(url)
yield Request(absolute_url , callback = self.parse_page)
def parse_page(self , response):
pass
mit
hier wird mit diesem Code Scrape „next“ Ergebnisse auf einer Webseite kann ich nur die ersten 24 Links kratzt nur Hilfe benötigen alle Links nach „mehr“ auf der Seite pag in Schaben url gegeben bbelow http://www.womenonlyconnected.com/socialengine/pageitems/indexScrapy: mein Code scrapy
@ Tomáš Linhart, ich habe diese Seite auch überprüft. Dies ist die letzte Seite "http: //www.womenonlyconnected.com/socialengine/pageitems/index? Page = 47". – SIM
@Shahin Das ist keine wirklich generische Lösung, da sich die Anzahl der Seiten im Laufe der Zeit ändert, wenn Artikel hinzugefügt werden. Eine wirklich generische Lösung beinhaltet das Rendern der Seite unter Verwendung eines (kopflosen) Browsers, wie es z.B. Spritzen. –