2015-11-15 13 views
10

Ich versuche, Apache Nutch zum Crawlen von URLs einzurichten, gefolgt von this. Da ich ein älterer Guide bin (Der Guide ist für 1.x, benutze ich 2.3), habe ich die notwendigen Änderungen an der Struktur vorgenommen. Aber wenn ich versuche, einen Crawl zu laufen, ich diesen Fehler:Apache Nutch - Probleme mit Pfaden

[email protected]:~# /usr/local/nutch/framework/apache-nutch-2.3/src/bin/crawl urls FirstCrawl 2 
No SOLRURL specified. Skipping indexing. 
Injecting seed URLs 
/usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl 
Error: Could not find or load main class org.apache.nutch.crawl.InjectorJob 
Error running: 
    /usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl 
Failed with exit value 1. 
[email protected]:~# 

Die neu in Ubuntu (14.04), ich finde es schwer, die Verzeichnisstruktur und die Wege hier zu verwalten.

InjectorJob ist in /usr/local/nutch/framework/apache-nutch-2.3/src/java/org/apache/nutch/crawl

JAVA_HOME zu /usr/lib/jvm/java-7-openjdk-amd64

Antwort

3

Stellen Sie sicher, eingestellt ist, dass Sie bereits die Nutch Quellcode kompilieren. Führen Sie anschließend den Befehl crawl aus $ {APACHE_NUTCH_HOME}/runtime/local (oder $ {APACHE_NUTCH_HOME}/runtime/deploy/bin) aus.

hoffe, das hilft,

Le Quoc Do