2016-04-18 5 views
0

Ich baue eine kleine Suche App mit Elasticsearch, AngularJS und Nutch. Ich habe ziemlich viel ES und AngularJS Teil abgeschlossen. Jetzt ist es Zeit für den Nutch- und ES-Teil, mit Nutch zu crawlen UND die Daten in ES zu indizieren. Ich habe Nutch 1.10 mit ES 1.4 benutzt. Ich habe Nutch v1.10 benutzt, um ein paar anfängliche kleine Crawls von ungefähr (~ 50 Seiten) auf meinem lokalen Rechner zu machen. Ich sehe jetzt, dass ES bis v2.3 oder so ähnlich ist und es scheint, dass Nutch v1.11 STILL ES v1.4 benutzt.Nutch und Elasticsearch

Hat jemand Erfahrungen mit Nutch v1.10, die mit einer Version von ES größer als 1.4 (vielleicht ES v1.5 oder v1.7) arbeiten?

Ich würde gerne mit dem Nutch 1.x Zweig bleiben, wenn möglich.

Antwort

1

Ich habe Nutch nicht zusammen mit ES 1.5/1.6/1.7 verwendet, aber es sollte keine größeren Änderungen zwischen der API geben, die vom indexer-elastic Plugin verwendet wird. Ich habe gerade die Anweisungen in https://github.com/apache/nutch/blob/master/src/plugin/indexer-elastic/howto_upgrade_es.txt gefolgt und gebaut/getestet (ant test) Nutch 1.11 mit ES 1.7.2 ohne Probleme. Dies bedeutet, dass der Code in Ordnung gebaut wurde, aber ich habe Indizierung der tatsächlichen Daten in Elasticsearch nicht getestet.

Sie müssen Ihre eigene Nutch-Distribution erstellen, ich empfehle Ihnen, Ihre elasticsearch-Clientversion mit der ES-Serverversion zu synchronisieren.

+0

danke für die Info und den Link, haben Sie Pläne, die Indizierung von Daten zu text? Welche Version der Ameise hast du benutzt? Ich habe noch keine Ameise benutzt ... – user3125823

+0

Ich bin froh, dass es geholfen hat, und ja, ich werde einen Test-Crawl machen, sobald ich ES 1.7.2 lade/installiere. Wahrscheinlich am Wochenende :). Außerdem benutze ich gerade die Version 1.9.6. –