2016-11-10 3 views
0

Ich bin sehr neu zu Apache-Nutch/Solr. Ich versuche, Websites damit zu crawlen. Ich habe versucht, darüber zu glotzen, konnte aber keine Informationen bekommen. Zum Beispiel nehmen wir eine Website und ich muss Titel, Header und Inhalt bekommen. Wie soll ich anfangen, oder irgendwelche gültigen Links würden geschätzt werden.Web Crawling mit Apache Nutch

Antwort

0

Normalerweise sind die Wiki des Projekts ist eine good starting point (für Version 1.x von Nutch). Sie haben nicht angegeben, welche Version Sie verwenden möchten, aber 1.x ist im Moment die empfohlene Version (und meine persönliche Präferenz).

+0

Ich plane es in der Version 1.12 .... irgendwelche Empfehlungen? –

+0

Nicht eine besondere, die v1.12 ist die tatsächliche stabile auf dem 1.x-Zweig, so dass Sie gut zu gehen sind. Auch die Verwendung des 'trunk/master' ist nicht so gefährlich, wie es scheint :) Sie müssen nur aus der Quelle bauen, bevor Sie Nutch verwenden –

+0

können Sie vielleicht eine passende solr-Version dazu empfehlen? Ich bin vor kurzem auf ein ähnliches Problem gestoßen, wo die Optionen im Tutorial für Nutch 1.X in der aktuellen Solr-Version nicht mehr vorhanden sind ... – dennlinger