2010-12-18 5 views
0

Ich versuche mit Nutch in Eclipse zu crawlen.Empty Nutch crawl list

Ich verwende eine Datei URLs genannt, und es enthält

http://www.google.com/

Allerdings, wenn ich das Projekt ausführen, die Generator-Klasse sagt mir, dass:

„0 Datensätze ausgewählt für das Abrufen , beenden "

Wie kann ich dieses Problem lösen?

Ich habe diese Dokumentationen gefolgt:

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

http://wiki.apache.org/nutch/NutchTutorial

Jede Hilfe wäre sehr geschätzt.

Antwort

1

Ich bin kürzlich auf dieses Problem gestoßen und habe festgestellt, dass die meisten Antworten die (regex | crawl) -urlfiters.txt betrafen. Eine weitere Sache, die Sie überprüfen sollten, sind Ihre '-topN'-Einstellungen. Dies muss groß genug sein, damit der Generator alle Filter passieren kann.

Ich hoffe, das hilft.

0

Ihre wahrscheinlichste regex-urlfilter.xml. Versuchen Sie dies und sehen, ob es das Problem

behebt -^(Datei | ftp | mailto).

- (gif | GIF | jpg | JPG | png | PNG | ico | js | ICO | doc | mp3 | DOC | css | rss | sit | eps | wmf | zip | ppt | mpg | xls | gz | rpm | tgz | mov | MOV | exe | jpeg | JPEG | bmp | BMP) $

-. * (/ [^ /] +)/[^ /] + \ 1/[^ /] + \ 1/

+.