2010-11-30 17 views

Antwort

1

Hier ist eine Liste der (Open Source) Web-Crawler: http://java-source.net/open-source/crawlers, die Sie entweder dazu verwenden können, oder können den Code sehen, um zu sehen, wie es gemacht werden kann.

+0

Ich benutze tatsächlich WebSphinx, aber ich kann nicht herausfinden, wie man es mit der Klassenbibliothek macht (es ist einfach von der Werkbank), obwohl ich einige Zeit im doc verbracht habe und für Beispiele googlen. Es ist ziemlich nervig, wenn ich weiß, dass es die Funktionalität hat, ich kann es einfach nicht finden! ;) Ich werde auch einige andere sehen. – Kris

+0

@Kris, ich bin nicht vertraut mit diesem Crawler, aber Blick über die API, ich denke, Sie müssten eine Crawler-Instanz erstellen und folgen Sie den Schritten in der API beschrieben: http: //www-2.cs .cmu.edu/~ rcm/websphinx/doc/websphinx/Crawler.html –

+0

Danke für Ihre Mühe, aber ich kämpfe nicht um das Crawlen selbst (ich habe den Crawler erfolgreich eingerichtet), sondern darum, wie man den Seite lokal mit Abhängigkeiten so rendert es in Ordnung. Dies kann entweder durch Herunterladen der in der "Hauptseite" verlinkten css und Bilder geschehen oder indem sichergestellt wird, dass die lokale Kopie mit absoluten URLs (in HTML und CSS) geschrieben ist. Ich hatte gehofft, dass ich den Code dafür selbst nicht schreiben musste :) – Kris

Verwandte Themen