2016-12-07 4 views
0

Ich benutze Apache Nutch 2.3.1 um einige Webseiten zu crawlen. Ich muss webgrag von gecrawlten Daten finden, aber leider gibt es in dieser Version keine Klasse wie in Version 1.x . Kann mich jemand davon leiten? Im Folgenden sind vollständige Befehlszeilenoption für Version 2.3.1 (aber es gibt keine webgraph)Wie bekomme ich Webgraph in Apache Nutch 2.x

Usage: nutch COMMAND 
where COMMAND is one of: 
inject  inject new urls into the database 
hostinject  creates or updates an existing host table from a text file 
generate generate new batches to fetch from crawl db 
fetch  fetch URLs marked during generate 
parse  parse URLs marked during fetch 
updatedb update web table after parsing 
updatehostdb update host table after parsing 
readdb  read/dump records from page database 
readhostdb  display entries from the hostDB 
index   run the plugin-based indexer on parsed batches 
elasticindex run the elasticsearch indexer - DEPRECATED use the index command instead 
solrindex run the solr indexer on parsed batches - DEPRECATED use the index command instead 
solrdedup remove duplicates from solr 
solrclean  remove HTTP 301 and 404 documents from solr - DEPRECATED use the clean command instead 
clean   remove HTTP 301 and 404 documents and duplicates from indexing backends configured via plugins 
parsechecker check the parser for a given url 
indexchecker check the indexing filters for a given url 
plugin  load a plugin and run one of its classes main() 
nutchserver run a (local) Nutch server on a user defined port 
webapp   run a local Nutch web application 
junit   runs the given JUnit test 
or 
CLASSNAME run the class named CLASSNAME 

Antwort

2

Leider ist diese Funktion noch nicht auf den 2.x Zweig von Nutch hinzugefügt, als allgemeiner Regel glaube ich, dass die 1.x Zweig hat mehr Funktionen und führt besser aus (obwohl sich das ändert). Wenn Sie auf 2.x bleiben müssen, dann empfehle ich, entweder das Feature selbst zu implementieren oder das links-indexer Plugin von 1.x auf 2.x zu migrieren (ich glaube, dass die Migration des Indexer-Plugins einfacher wird). Ich hatte das geplant, konnte aber die Zeit nicht finden.

Verwandte Themen