Ich versuche, Apache Nutch zum Crawlen von URLs einzurichten, gefolgt von this. Da ich ein älterer Guide bin (Der Guide ist für 1.x, benutze ich 2.3), habe ich die notwendigen Änderungen an der Struktur vorgenommen. Aber wenn ich versuche, einen Crawl zu laufen, ich diesen Fehler:Apache Nutch - Probleme mit Pfaden
[email protected]:~# /usr/local/nutch/framework/apache-nutch-2.3/src/bin/crawl urls FirstCrawl 2
No SOLRURL specified. Skipping indexing.
Injecting seed URLs
/usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl
Error: Could not find or load main class org.apache.nutch.crawl.InjectorJob
Error running:
/usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl
Failed with exit value 1.
[email protected]:~#
Die neu in Ubuntu (14.04), ich finde es schwer, die Verzeichnisstruktur und die Wege hier zu verwalten.
InjectorJob
ist in /usr/local/nutch/framework/apache-nutch-2.3/src/java/org/apache/nutch/crawl
JAVA_HOME
zu /usr/lib/jvm/java-7-openjdk-amd64