2017-05-19 1 views
0

Ich bin nicht sicher warum, aber Nutch 1.13 schlägt fehl, die Daten zu ES (v2.3.3) zu indexieren. Es kriecht, das ist in Ordnung, aber wenn es Zeit zum Index kommt seine gibt mir diese Fehlermeldung ES:Elasticsearch-Indizierung schlägt nach erfolgreicher Nutch-Crawl fehl

Indexer: java.io.IOException: Job failed! 
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:865) 
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:147) 
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:230) 
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:239) 

Recht davor ist, hat dies:

elastic.bulk.close.timeout : elastic timeout for the last bulk in seconds. (default 600) 

Ich bin nicht sicher genau, wenn das Timeout etwas damit zu tun hat, dass der Job fehlschlägt?

Ich habe Nutch v1.10 viele Male ohne Probleme ausgeführt, aber jetzt beschlossen, zu aktualisieren. Hatte diesen Fehler vorher noch nie mit Upgrade.

EDIT: Nach näherer Betrachtung der Fehlermeldung:

Error running: 
    /home/david/tutorials/nutch/nutch-1.13/runtime/local/bin/nutch index -Delastic.server.url=http://localhost:9300/search-index/ searchcrawl//crawldb -linkdb searchcrawl//linkdb searchcrawl//segments/20170519125546 

Es scheint, es versagt zu werden, auf diesem bestimmten Segment, was das bedeutet? Ich kenne nur die Grundlagen, wie man Nutch benutzt, ich bin keineswegs ein Experte. Scheitert es auf einer Verbindung?

Antwort

1

Bis Nutch 1.14 aus ist, müssen Sie diesen Patch anwenden https://github.com/apache/nutch/pull/156 und neu zu erstellen:

cd apache-nutch-1.13 
wget https://raw.githubusercontent.com/apache/nutch/e040ace189aa0379b998c8852a09c1a1a2308d82/src/java/org/apache/nutch/indexer/CleaningJob.java 
mv CleaningJob.java src/java/org/apache/nutch/indexer/. 
+0

dank Mann, ich habe es aber die Indizierung noch nicht funktioniert. Ich denke jedoch, dass das Problem 2-fach ist. Dieses Problem und ein Guavenabhängigkeitsproblem bei ES. – user3125823