Ich benutze Apache Nutch 1.12 und die URLs, die ich zu crawlen versuche, ist so etwas wie https://www.mywebsite.com/abc-def/, das ist der einzige Eintrag in meiner seed.txt-Datei. Da will ich nicht jede Seite kriechen sein, habe ich nicht „abc-def“ in der URL hat so die folgende Zeile in regex-urlfilter.txt setzen:Nutch crawlt keine URLs außer der in seed.txt angegebenen
+^https://www.mywebsite.com/abc-def/(.+)*$
Wenn ich versuche zu laufen Befehl die folgenden Crawl:
**/bin/crawl -i -D solr.server.url=http://mysolr:3737/solr/coreName $NUTCH_HOME/urls/ $NUTCH_HOME/crawl 3**
es crawlen und indexieren nur eine seed.txt uRL und in der 2. Iteration es einfach sagen:
Generator: starting at 2017-02-28 09:51:36
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: false
Generator: normalizing: true
Generator: topN: 50000
Generator: 0 records selected for fetching, exiting ...
Generate returned 1 (no new segments created)
Escaping loop: no more URLs to fetch now
Wenn ich die Regex-urlfilter.txt ändern, alles zu ermöglichen (+.) Es begann jede URL aufzu indizierenwas ich sicherlich nicht will.
Wenn jemand das gleiche Problem haben, teilen Sie bitte, wie Sie darüber hinauskommen.
Könnten Sie bitte genauer sein, welche Eigenschaft sollte ich zwicken, um diese Arbeit zu machen. Ich habe schon einige ausprobiert, indem ich sie in nutch-site.xml kopiert habe, aber es hat nicht funktioniert. – Torukmakto
also im Grunde wollen Sie keine externen Link auf https://www.mywebsite.com/abc-def/crawlen, oder? Wenn ja, versuchen Sie es mit dem Wert ' db.ignore.external.links 'als' wahr '? Lass es mich wissen und ich kann die Antwort entsprechend bearbeiten. –
Nein, ich wollte interne Links, die den Pfad von mywebsite.com/abc-def/ haben. Wie auch immer, ich denke, ich habe die Lösung des Problems. Danke für die Hilfe. – Torukmakto