2016-04-05 11 views
0

Kann Nutch verwendet werden:Kann Nutch bestimmte Seiten kriechen werden eingesetzt

  1. einen Web-Service erstellen, die ich eine Liste von URLs (diese in Chargen von mehreren zehntausend sein könnte) geben kann - das ein einfacher Wrapper um eine Befehlszeile könnte
  2. überprüfen wiederholt, wenn der Auftrag abgeschlossen war - die
  3. im Gegenzug eine einfache Wrapper um eine Befehlszeile sein könnte: - dies könnte bekommt einen Datensatz, den die abgeladen hTML-Seiten hat ein einfacher Wrapper um eine Befehlszeile sein

Antwort

1

Ja, Sie könnten dies mit Apache Nutch tun.

Werfen Sie einen Blick auf die Nutch REST API [0] (aktiv in Entwicklung), mit der Sie Nutch als Dienst starten, URLs über einen HTTP-Aufruf bereitstellen, die Fertigstellung von Jobs überwachen und dann die Daten zurückgeben können.

[0] - https://wiki.apache.org/nutch/Nutch_1.X_RESTAPI

1

Die andere Sache zu beachten ist hier, dass Sie auch diese Qurora post überprüfen können, wo ich beschreiben, wie konzentriert Crawling in Nutch zu ermöglichen.