2017-06-22 5 views
0

Ich stecke beim Versuch, Nutch 2.3 mit Elasticsearch 5.4 einzurichten. Das Problem ist in Nutch, weil ich es nicht bekommen kann, um meine URLs zu injizieren. Das hadoop Protokoll zeigt die folgende Warnung:Apache Nutch 2.3: wird keine URLs injizieren (Hänge) & hadoop Logshows Warnung

Console:

aurora apache-nutch-2.3.1 # runtime/local/bin/nutch inject urls/seed.txt 
InjectorJob: starting at 2017-06-14 17:08:28 
InjectorJob: Injecting urlDir: urls/seed.txt 

** ** es hier hängt

und die

Hadoop log:

aurora apache-nutch-2.3.1 # cat runtime/local/logs/hadoop.log 
2017-06-14 17:08:28,339 INFO crawl.InjectorJob - InjectorJob: starting at 2017-06-14 17:08:28 
2017-06-14 17:08:28,340 INFO crawl.InjectorJob - InjectorJob: Injecting urlDir: urls/seed.txt 
2017-06-14 17:08:28,992 WARN util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 

I‘ Ich habe versucht, meine Hadoop-Umgebungsvariablen nach diesem Thread zu setzen (Hadoop "Unable to load native-hadoop library for your platform" warning), aber ich ' Ich bekomme immer noch den gleichen Fehler.

Irgendwelche Ideen?

Antwort

0
  1. Machen Sie sich keine Sorgen wegen einer Warnung. Und ich glaube, Sie laufen auf einer Linux-Distribution
  2. Nutch2.3 ist nicht kompatibel mit ES 5.x. Ich hatte einen benutzerdefinierten IndexWriter geschrieben, der Logstash an einem bestimmten Port aufruft, der wiederum die elastische Suche aufruft. Sie können diesen Ansatz oder etwas um es herum versuchen.
+0

OK, danke. Haben Sie ein funktionierendes Setup dieser beiden? –

+0

Ich benutzte Oracle Virtual Box und rannte ubuntu darauf. Hat alle Änderungen dort gemacht. Für den benutzerdefinierten Logstash-Code können Sie einen der Indexer, die mit der 2.3-Distribution kommen, verwenden und diesen gemäß Ihren Anforderungen ändern. Ich werde versuchen, Ihnen eine Probe zu geben, geben Sie mir irgendwann. –