stormcrawler

0Hitze

2Antwort

storm crawler - Technologie-Stack und Apache Nutch

Ich möchte ein bestimmtes Forum in Echtzeit crawlen und die Daten in HDFS ablegen, wenn nicht Hbase. Ich hörte, Apache Nutch könnte den Zweck lösen, aber leider ist der Technologie-Stack ziemlich alt.

0Hitze

1Antwort

Storm Crawler Konfiguration mit Tika für rekursive Crawls

Ich möchte Tika-Parser zu meiner Topologie hinzufügen. Ich habe jsoup.treat.non.html.as.error als false in der Konfiguration festgelegt und ich habe die Tika-Topologie wie in der Storm-Crawler-Dokumen

2Hitze

1Antwort

Storm Crawler - Crawling der Websites, die Authentifizierung benötigen

Ich möchte Websites im Intranet mit Storm Crawler crawlen Websites, die eine Autorisierung erfordern (ich habe bereits Anmeldeinformationen). Ist es möglich, dies einfach durch Ändern der Crawler-Konf