2011-01-16 10 views
1

Ich bin auf der Suche nach einem Web-Crawler mit der Möglichkeit, die Seite CSS zu greifen. Ich brauche keine anderen krabbelnden Fähigkeiten.Java CSS Crawler

Ich versuche mich durch Xapian, Nutch und Heritrix zu kämpfen. Sie scheinen alle etwas komplex zu sein. Wenn jemand Erfahrungen oder Empfehlungen hat, würde ich gerne hören. Ein zugängliches Tutorial zu jeder der oben genannten Plattformen ist ebenfalls willkommen.

David

Antwort

0

Sie haben Recht, verwenden Sie diese nicht, sie sind viel zu schwer.

Verwendung: Crawler4j

Folgen Sie die Vor-Ort-Anleitung für einen einfachen Crawler.

Die einzige Änderung, die Sie brauchen in MyCrawler.java ist: Remove "css" aus dem Muster FILTER Bei dem Besuch() -Methode, stellen eine einfache Bedingung wie folgt:

if (url.contains(".css")) { 
    // do what you need with it 
} 

Das ist es - Sie sind gut!

0

Ich empfehle die Verwendung von einfachen HTTPClient und einfache Regex. Sie können die Antworten in einer eigenen Datei, Datenbank oder einem eigenen Archiv speichern (siehe Heritrix).

Es hält die Dinge einfach, anstatt einen schwergewichteten Crawler zu verwenden. Da es nur wenige CSS pro Domain gibt, können Sie komplexe URLs innerhalb der Domain ignorieren.

Prost!