Das ist meine custom_filters.py Datei:Ignorieren bereits besuchte URLs in scrapy
from scrapy.dupefilter import RFPDupeFilter
class SeenURLFilter(RFPDupeFilter):
def __init__(self, path=None):
self.urls_seen = set()
RFPDupeFilter.__init__(self, path)
def request_seen(self, request):
if request.url in self.urls_seen:
return True
else:
self.urls_seen.add(request.url)
Added die Zeile:
DUPEFILTER_CLASS = 'crawl_website.custom_filters.SeenURLFilter'
settings.py
Wenn ich die CSV-Datei überprüfen erzeugt Es zeigt eine URL viele Male. Ist das falsch?
Sie könnten Protokollzeilen zu Ihrem DupeFilter 'request_seen' Methode hinzufügen zu verstehen, was auf –