Ich bemerkte, dass bei jedem Nutc Crawl die an Solr gesendeten Indizes nicht konsistent waren. Manchmal wurden die letzten Änderungen an den Webseiten angezeigt, manchmal wurden ältere Änderungen angezeigt.Nutch Crawl - Löschen von Segmenten bei jedem Crawl Implikationen
Ursache
Bemerkt, dass Nutch wurde Indizes von einem älteren Segment zu Solr geben.
Aktuelle Lösung
alle alten Segmente löschen, bevor das Abrufen und schien das Problem zu lösen.
Frage
Wollen Sie wissen, ob es irgendwelche Auswirkungen eines solchen Ansatzes oder mein Verständnis sind dies falsch ist. Möchte auch wissen, warum Nutch nicht automatisch ältere Segmente während eines Crawls entfernt.
Danke.