2016-05-04 9 views
0

Ich crawle ein paar Websites mit Apache Nutch, aber ich habe festgestellt, dass bei jeder Iteration die 95% der Websites, die es durchsucht, bereits in der Datenbank sind. Ich verwende den Skriptcrawl im bin-Verzeichnis mit Stapeln von 50.000 URLs.Apache Nutch vermeiden Refetching

Ich fragte mich, ob ich das Refetching der URLs vermeiden konnte, die ich bereits in der Datenbank habe.

Antwort

0

Mit den Standardeinstellungen sollten die URLs nur alle 30 Tage erneut abgefragt werden db.fetch.interval.default. Sie könnten diesen Wert ebenso erhöhen wie den Wert db.fetch.interval.max. URLs werden immer von Nutch referenziert, auch wenn sie als GONE markiert sind.

EDIT Ihr Problem sein könnte auch, dass ein paar Host-Namen sind über in den Segmenten vertreten und dass als Ergebnis Sie nicht entdecken und Crawl-URLs aus anderen Quellen. Wenn ja, bearbeiten Sie generate.max.count und generate.count.mode

+0

Der Wert ist auf den Standardwert eingestellt, so wie Sie sagen, sollte es alle 30 Tage abgerufen werden. Ich habe nur eine begrenzte Liste von 3000 Websites, von denen es abholen kann. Könnte es möglicherweise meinen Crawling beeinflussen? – rodi

+1

@rodi nicht sicher, ich verstehe, was das Problem ist. Wenn Sie die URLs, die Sie bereits abgerufen haben, nicht erneut abrufen möchten, ändern Sie die db.fetch.interval-Konfigurationen wie beschrieben. Ich habe die Antwort mit einer möglichen Erklärung aktualisiert. Kannst du erklären, was du meinst? –