Ich möchte ein bestimmtes Forum in Echtzeit crawlen und die Daten in HDFS ablegen, wenn nicht Hbase. Ich hörte, Apache Nutch könnte den Zweck lösen, aber leider ist der Technologie-Stack ziemlich alt.
Ich möchte Tika-Parser zu meiner Topologie hinzufügen. Ich habe jsoup.treat.non.html.as.error als false in der Konfiguration festgelegt und ich habe die Tika-Topologie wie in der Storm-Crawler-Dokumen
Ich möchte Websites im Intranet mit Storm Crawler crawlen Websites, die eine Autorisierung erfordern (ich habe bereits Anmeldeinformationen). Ist es möglich, dies einfach durch Ändern der Crawler-Konf