Ich versuche, eine scrapy zu tun, finden und drucken alle href von einer Startseite finden:scrapy Python href Verweise rekursiv
class Ejercicio2(scrapy.Spider):
name = "Ejercicio2"
Ejercicio2 = {}
category = None
lista_urls =[] #defino una lista para meter las urls
def __init__(self, *args, **kwargs):
super(Ejercicio2, self).__init__(*args, **kwargs)
self.start_urls = ['http://www.masterdatascience.es/']
self.allowed_domains = ['www.masterdatascience.es/']
url = ['http://www.masterdatascience.es/']
def parse(self, response):
print(response)
# hay_enlace=response.css('a::attr(href)')
# if hay_enlace:
links = response.xpath("a/@href")
for el in links:
url = response.css('a::attr(href)').extract()
print(url)
next_url = response.urljoin(el.xpath("a/@href").extract_first())
print(next_url)
print('pasa por aqui')
yield scrapy.Request(url, self.parse())
# yield scrapy.Request(next_url, callback=self.parse)
print(next_url)
Aber nicht wie erwartet funktioniert, nicht nach den „href“ Referenzen angetroffen , nur der erste.
Können Sie versuchen, die nachstehende '/' in 'allowed_domains' zu entfernen? ('self.allowed_domains = ['www.masterdatascience.es']' ') –