Ich habe in den letzten zwei Wochen eine Website gesammelt/gecrawlt. Ich habe die crawl
Befehlseinstellung 100
Iterationen verwendet. Der Prozess ist gerade beendet. Wie kann ich die Abdeckung der gecrawlten Daten feststellen? Ich erwarte wirklich keine genaue Zahl, aber ich würde gerne wissen, etwa wie viele Informationen auf der Website nicht gecrawlt bleibt.Wie definiere ich die Coverage meines Nutch Crawl?
Antwort
Danke, @Jorge. Nach dem, was Sie gesagt haben:
Nutch hat keine Ahnung davon, wie groß/klein ist die Website (s) Sie kriechen
Also, gibt es keine Möglichkeit, das zu berechnen, es sei denn Sie wissen, die Größe der Website im Voraus.
Danke nochmal.
Sie Frage ist ein wenig mehrdeutig, wenn Sie versuchen zu bekommen, wie viele Daten der gesamten Website Sie bereits gecrawlt haben, ist dies ein schweres Problem, Nutch hat keine Ahnung, wie groß/klein ist die Website (s) Sie kriechen. Sie haben gesagt, dass Sie 100 Iterationen durchgeführt haben, indem Sie die Standardeinstellungen im bin/crawl
Skript verwenden. Dies bedeutet, dass Nutch bei jeder Iteration maximal 50 000 URLs (https://github.com/apache/nutch/blob/master/src/bin/crawl#L117) abruft, dies bedeutet jedoch nicht, dass Ihre Website nicht mehr hat URLs bedeutet nur, dass dies eine Konfiguration auf Nutch ist und vielleicht hat Nutch nicht einmal alle URLs gefunden. Bei jeder Iteration konnte Nutch neue URLs entdecken, die den Prozess inkrementell machen.
Was können Sie tun, ausführen ist die bin/nutch readdb
Befehl Bestehen der -stats
Parameter, so etwas wie:
$ bin/nutch readdb crawl/crawldb -stats
Dieses eine Ausgabe bringen sollte ähnlich wie:
CrawlDb statistics start: crawl/crawldb
Statistics for CrawlDb: crawl/crawldb
TOTAL urls: 575
retry 0: 569
retry 1: 6
min score: 0.0
avg score: 0.0069252173
max score: 1.049
status 1 (db_unfetched): 391
status 2 (db_fetched): 129
status 3 (db_gone): 53
status 4 (db_redir_temp): 1
status 5 (db_redir_perm): 1
CrawlDb statistics: done
Mit dieser Info Sie das wissen konnte, Gesamtzahl der gefundenen URLs und wie viel davon abgerufen wurde, zusammen mit weiteren nützlichen Informationen.
- 1. Empty Nutch crawl list
- 2. Wie Nutch Crawl-Dateisystem zu machen?
- 3. Wie bekomme ich Webgraph in Apache Nutch?
- 4. Gibt es eine Möglichkeit, die Aufgabe "Nutch Crawl" fortzusetzen, die unerwartet beendet wurde?
- 5. Nutch Multithreading
- 6. Wie definiere ich das?
- 7. Wie definiere ich Unterklassen?
- 8. Wie definiere ich die Memberkonstante in F #?
- 9. Apache Nutch - Probleme mit Pfaden
- 10. Wie finde ich die Hauptfunktion meines Programms (...)?
- 11. Wie verschiebe ich die Position meines Bildes?
- 12. Wie definiere ich einen Linkpfad?
- 13. Wie definiere ich eine Testaufgabe?
- 14. Wie definiere ich Ziel "sauber"?
- 15. Wie definiere ich ein eigenes Asciidoc-Makro?
- 16. Wie definiere ich eine Tastenkombination?
- 17. Wie definiere ich Sequelize.STRING Länge?
- 18. Wie kann ich Bilder mit Nutch herunterladen?
- 19. ist es möglich, Nutch Fetcher Klasse anzupassen?
- 20. Nutch in Windows: Fehler Berechtigungen Pfad setzen
- 21. mit Nutch Crawling ... Zeigt eine IOException
- 22. Welche Java-Klassen sind mit diesen nutch-Befehlen verbunden?
- 23. nutch Feldproblem
- 24. Nutch Vergünstigungen
- 25. Apache Nutch 2.1 verschiedene Batch-ID (null)
- 26. Nutch Suche liefert immer 0 Ergebnisse
- 27. Crawl-Seite, die Anmeldung mit Anemone erfordert
- 28. Wie definiere ich die Marker für Watershed in OpenCV?
- 29. CakePhP: Wie definiere ich die Basis-URL für einen Controller?
- 30. Wie definiere ich die reelle Nummer in agda?