Empty Nutch crawl list

Ich versuche mit Nutch in Eclipse zu crawlen.Empty Nutch crawl list

Ich verwende eine Datei URLs genannt, und es enthält

http://www.google.com/

Allerdings, wenn ich das Projekt ausführen, die Generator-Klasse sagt mir, dass:

„0 Datensätze ausgewählt für das Abrufen , beenden "

Wie kann ich dieses Problem lösen?

Ich habe diese Dokumentationen gefolgt:

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

http://wiki.apache.org/nutch/NutchTutorial

Jede Hilfe wäre sehr geschätzt.

Quelle

2010-12-18 Lajos Arpad

Ich bin kürzlich auf dieses Problem gestoßen und habe festgestellt, dass die meisten Antworten die (regex | crawl) -urlfiters.txt betrafen. Eine weitere Sache, die Sie überprüfen sollten, sind Ihre '-topN'-Einstellungen. Dies muss groß genug sein, damit der Generator alle Filter passieren kann.

Ich hoffe, das hilft.

Quelle

2012-07-25 23:38:55 cloksmith

Ihre wahrscheinlichste regex-urlfilter.xml. Versuchen Sie dies und sehen, ob es das Problem

behebt -^(Datei | ftp | mailto).

- (gif | GIF | jpg | JPG | png | PNG | ico | js | ICO | doc | mp3 | DOC | css | rss | sit | eps | wmf | zip | ppt | mpg | xls | gz | rpm | tgz | mov | MOV | exe | jpeg | JPEG | bmp | BMP) $

-. * (/ [^ /] +)/[^ /] + \ 1/[^ /] + \ 1/

Quelle

2011-02-04 06:49:56 Slick86

Empty Nutch crawl list

Antwort

Verwandte Themen