2009-04-19 7 views
0

Ich weiß, dass cURL eine vollständige Datei herunterladen wird.Web Crawling und Link Auswertung

Was ich wirklich will, ist, alle Links auf einer Seite zu nehmen und gegen meine spezifischen Kriterien, den Standort des Links usw. zu beurteilen und zu entscheiden, ob ich diese Seite greifen und für Informationen analysieren sollte.

Genauer gesagt möchte ich Links finden, die Unterhaltungsereignisse betreffen und die Daten analysieren und in meiner MySQL-Datenbank speichern, um eine Website für Veranstaltungen in meiner Gegend zu füllen.

Würde jemand Gedanken darüber haben, wie man es schafft?

-Jason

Antwort

2

Ich schlage vor, Sie Ihre Bemühungen auf einer bestehenden Web-Crawler/Indexer Lösung stützen, anstatt es selbst im Code oder mit Werkzeugen wie CURL zu implementieren.

Siehe beispielsweise Lucene.

+0

wie kann man diese auf einem gemeinsamen Server bei GoDaddy bereitstellen? – Toddly

+0

Und zweitens, auf einem Mac mini mit einer statischen IP? – Toddly

0

Wenn Sie nur eine Aufzählung von Links auf einer Seite wünschen, können Sie dazu den .NET WebBrowser und das DOM verwenden. Digging meinen Code dafür ... Ich werde zu dir zurückkommen.

0

Sie haben keine Programmiersprache angegeben. Apache Droids kann die Sache für Sie sein, wenn Sie bereit sind, es mit Java anzupassen. Es ist als ein minimaler Crawler geplant, den Sie für Ihre spezifischen Bedürfnisse anpassen können.

1

Diese Lösungen in den anderen Antworten klingt interessant, aber ich habe gerade etwas ähnliches und einfach mit C#/Mono und HTML Agility Pack getan.

0

Wie oben erwähnt, haben Sie keine Sprache erwähnt. Wenn Sie Ruby verwenden, könnte das Spinnweben-Juwel dafür verwendet werden. Sie würden manuell sagen, dass es keine Links finden soll (es würde automatisch alle Links automatisch crawlen) und dies auf jeder Seite selbst tun, wie Sie sagten, dass Sie sie auswerten müssten. Sie könnten dann manuell in die Warteschlange gestellt werden gekrochen werden.

Es scheint, als ob Ruby on Rails von godaddy shared hosting unterstützt wird, wenn das ist, was Sie auf.

(gerade gesehen, das vor 3 Jahren war, vielleicht hätte jemand anderes helfen!)