Ich habe eine Frage zum Parsen von E-Mail in verschiedenen Websites durch Scrapy.
Ich habe solche Spinne:Scrapy, Parsen E-Mail an mehreren Standorten
from scrapy.contrib.spiders import CrawlSpider
from sufio.items import MItem
class MSpider(CrawlSpider):
name = 'mparser'
start_urls = [
'https://horizonsupply.myshopify.com/pages/about-us',
'https://fnatic-shop.myshopify.com/pages/about-us',
'https://horizonsupply.myshopify.com/pages/about-us',
'https://fnatic-shop.myshopify.com/pages/about-us'
]
def parse(self, response):
item = MItem()
item['facebook'] = response.xpath('//a[contains(@href, "facebook")]/@href').extract_first()
item['twitter'] = response.xpath('//a[contains(@href, "twitter")]/@href').extract_first()
# item['email'] =
yield item
Ich brauche jeden Link zu folgen und überprüfen, ob E-Mail ist. Kann man mit scrapy arbeiten?
_wenn es email_? Kannst du tiefer in deiner Frage erklären? –
@ SebastiánPalma Ich meinte, kann ich E-Mails von jeder Seite mit Hilfe von regulären Ausdruck oder etwas ähnliches analysieren. Ich kann das mit xpath nicht machen, weil es auf jeder Seite anders ist. –