1. Es scheint für eine oder zwei Stunden zu laufen. und ich bekomme entsprechende Ergebnisse in solr. Während der Crawling-Phase scheinen jedoch viele URLs im Terminal-Bildschirm abgerufen und geparst zu sein. Warum werden sie nicht zur Basisliste hinzugefügt?
Die Seed-Datei wird nie durch nutch geändert, sie dient nur als Lese-Zweck für die Injektionsphase.
2.Wie wissen Sie, ob meine crawldb wächst?
Sie sollen bei der Option -stats readdb einen Blick darauf werfen, wo man so etwas wie diese
crawl.CrawlDbReader - Statistics for CrawlDb: test/crawldb
crawl.CrawlDbReader - TOTAL urls: 5584
crawl.CrawlDbReader - shortest fetch interval: 30 days, 00:00:00
crawl.CrawlDbReader - avg fetch interval: 30 days, 01:14:16
crawl.CrawlDbReader - longest fetch interval: 42 days, 00:00:00
crawl.CrawlDbReader - earliest fetch time: Tue Nov 07 09:50:00 CET 2017
crawl.CrawlDbReader - avg of fetch times: Tue Nov 14 11:26:00 CET 2017
crawl.CrawlDbReader - latest fetch time: Tue Dec 19 09:45:00 CET 2017
crawl.CrawlDbReader - retry 0: 5584
crawl.CrawlDbReader - min score: 0.0
crawl.CrawlDbReader - avg score: 5.463825E-4
crawl.CrawlDbReader - max score: 1.013
crawl.CrawlDbReader - status 1 (db_unfetched): 4278
crawl.CrawlDbReader - status 2 (db_fetched): 1014
crawl.CrawlDbReader - status 4 (db_redir_temp): 116
crawl.CrawlDbReader - status 5 (db_redir_perm): 19
crawl.CrawlDbReader - status 6 (db_notmodified): 24
Einen guten Trick bekommen soll ich immer tun, um diesen Befehl innerhalb des Crawl-Skript von nutch bereitgestellt setzen (bin/crawl), innerhalb der Schleife
for for ((a=1; ; a++))
do
...
> echo "stats"
> __bin_nutch readdb "$CRAWL_PATH"/crawldb -stats
done
Es geht um einen Monat gewesen, und die einzigen Ergebnisse i auf solr erhalten sind aus dem Samen und ihre Verbindung s.
Die Ursachen sind vielfältig, Sie sollten die Ausgabe jeder Phase überprüfen und sehen, wie der Trichter geht.
3. Ich habe oben Befehl in Crontab-e und Plesk geplanten Aufgaben festgelegt. Jetzt bekomme ich dieselben Links mehrmals im Gegenzug für die Suchanfrage. Wie vermeidet man doppelte Ergebnisse in solr?
Raten Sie haben nutch Standard-Solr-Schema verwendet, überprüfen Sie die URL-ID-Felder. Soweit ich gearbeitet habe, ID ist die eindeutige Kennung einer URL (die Inhalte weiterleiten kann)