2016-05-09 7 views
1

Ich habe in den letzten zwei Wochen eine Website gesammelt/gecrawlt. Ich habe die crawl Befehlseinstellung 100 Iterationen verwendet. Der Prozess ist gerade beendet. Wie kann ich die Abdeckung der gecrawlten Daten feststellen? Ich erwarte wirklich keine genaue Zahl, aber ich würde gerne wissen, etwa wie viele Informationen auf der Website nicht gecrawlt bleibt.Wie definiere ich die Coverage meines Nutch Crawl?

Antwort

0

Danke, @Jorge. Nach dem, was Sie gesagt haben:

Nutch hat keine Ahnung davon, wie groß/klein ist die Website (s) Sie kriechen

Also, gibt es keine Möglichkeit, das zu berechnen, es sei denn Sie wissen, die Größe der Website im Voraus.

Danke nochmal.

2

Sie Frage ist ein wenig mehrdeutig, wenn Sie versuchen zu bekommen, wie viele Daten der gesamten Website Sie bereits gecrawlt haben, ist dies ein schweres Problem, Nutch hat keine Ahnung, wie groß/klein ist die Website (s) Sie kriechen. Sie haben gesagt, dass Sie 100 Iterationen durchgeführt haben, indem Sie die Standardeinstellungen im bin/crawl Skript verwenden. Dies bedeutet, dass Nutch bei jeder Iteration maximal 50 000 URLs (https://github.com/apache/nutch/blob/master/src/bin/crawl#L117) abruft, dies bedeutet jedoch nicht, dass Ihre Website nicht mehr hat URLs bedeutet nur, dass dies eine Konfiguration auf Nutch ist und vielleicht hat Nutch nicht einmal alle URLs gefunden. Bei jeder Iteration konnte Nutch neue URLs entdecken, die den Prozess inkrementell machen.

Was können Sie tun, ausführen ist die bin/nutch readdb Befehl Bestehen der -stats Parameter, so etwas wie:

$ bin/nutch readdb crawl/crawldb -stats 

Dieses eine Ausgabe bringen sollte ähnlich wie:

CrawlDb statistics start: crawl/crawldb 
Statistics for CrawlDb: crawl/crawldb 
TOTAL urls: 575 
retry 0: 569 
retry 1: 6 
min score: 0.0 
avg score: 0.0069252173 
max score: 1.049 
status 1 (db_unfetched): 391 
status 2 (db_fetched): 129 
status 3 (db_gone): 53 
status 4 (db_redir_temp): 1 
status 5 (db_redir_perm): 1 
CrawlDb statistics: done 

Mit dieser Info Sie das wissen konnte, Gesamtzahl der gefundenen URLs und wie viel davon abgerufen wurde, zusammen mit weiteren nützlichen Informationen.