Dies ist standardmäßig Dupefilter
Klassenmethode des scrapy request_seen
Scrapy - Retrieve Spinne Objekt in dupefilter
class RFPDupeFilter(BaseDupeFilter):
def request_seen(self, request):
fp = self.request_fingerprint(request)
if fp in self.fingerprints:
return True
self.fingerprints.add(fp)
if self.file:
self.file.write(fp + os.linesep)
Während eine benutzerdefinierte dupefilter implementieren. Ich kann nicht das spider
Objekt aus dieser Klasse im Gegensatz zu anderen scrapy Middleware
abrufen Gibt es eine Möglichkeit, ich kann wissen, welche spider
Objekt das ist? so kann ich es über eine Spinne auf Spinnenbasis anpassen?
Auch ich kann nicht nur eine Middleware implementieren, die URLs liest und in eine Liste einträgt & prüft Duplikate anstelle eines benutzerdefinierten Dupefilters. Das ist, weil ich pausieren müssen/resume kriecht und scrapy muß die Anforderung Fingerabdruck standardmäßig zu speichern, mit dem JOBDIR