2017-06-28 3 views
0

Ich bemerkte, dass bei jedem Nutc Crawl die an Solr gesendeten Indizes nicht konsistent waren. Manchmal wurden die letzten Änderungen an den Webseiten angezeigt, manchmal wurden ältere Änderungen angezeigt.Nutch Crawl - Löschen von Segmenten bei jedem Crawl Implikationen

Ursache

Bemerkt, dass Nutch wurde Indizes von einem älteren Segment zu Solr geben.

Aktuelle Lösung

alle alten Segmente löschen, bevor das Abrufen und schien das Problem zu lösen.

Frage

Wollen Sie wissen, ob es irgendwelche Auswirkungen eines solchen Ansatzes oder mein Verständnis sind dies falsch ist. Möchte auch wissen, warum Nutch nicht automatisch ältere Segmente während eines Crawls entfernt.

Danke.

Antwort

0

Wenn mehrere Segmente indiziert sind (erneut) und dasselbe in zwei oder mehr Segmenten enthalten ist, gibt es keine Garantie, dass die neueste Version indiziert wird. Es ist ein bekanntes Problem (NUTCH-1416). Die einfachste Lösung besteht darin, nur die zuletzt abgerufenen Segmente an den Indexer zu senden. Das Skript bin/crawl tut dies, der Indexschritt erfolgt am Ende jedes Zyklus für das in diesem Zyklus abgerufene Segment.