Momentan benutze ich die seed.txt
Datei mit einer Liste von Domainnamen zum Crawlen, aber gibt es eine Möglichkeit diese Liste in der DB zu haben, die ich mit Nutch eingerichtet habe?In Nutch, wie kann ich meine DB verwenden, um die Liste aller Seed-URLs zu speichern?
Damit verbunden: Gibt es eine Grenze für wie viele Domänen kann ich auflisten?
I Accumulo mit Gora verwenden. Ich stelle mir vor, DBInputFormat unterstützt Gora. – jnbdz
Dann wird vielleicht die 'org.apache.accumulo.core.client.mapred.AccumuloInputFormat' besser passen. Ich habe selbst nicht mit Accumulo gespielt, aber das scheint die richtige Option zu sein. –