2012-03-26 13 views
1

Ich benutze Nutch 1.4, um Websites zu crawlen. Zu Demonstrationszwecken begann ich mit jabong.com zu crawlen, aber ich bemerkte, dass nutch nicht alle Links auf der Site abrufen konnte.Nutch konnte bestimmte Site nicht crawlen

Nach dem Besuch http://www.jabong.com/women/clothing/womens-suits-sets/ Es werden keine Links auf dieser Site abgerufen, die auf Bildern zugeordnet sind.

Ich habe konfiguriert nutch als: - conf/nuth-default.xml ---> hinzugefügt, um den Agentennamen conf/regex-urlfilter.txt ---> Statt +. Ich schrieb +^http: // (. [A-z0-9] *) * jabong.com/ seed.txt enthält http://www.jabong.com/

Kann mir jemand sagen, was das Problem sein könnte, es nicht alles abruft Links?

Antwort

2

Endlich, in der Lage, dieses Problem zu lösen, nachdem ich meinen Kopf lang gebrochen habe. So ist es hier zu teilen :) Sie haben, um die Parameter in nutch-default.xml in conf definiert einstellen

so die max.content.length überprüfen, Wert für diese definiert wird rund 60K aber tatsächlich der Seiteninhalt wurde viel mehr so ​​war es nicht in der Lage die ganze Seite crawlen und deshalb konnten die Links nicht in der gecrawlten Seite erscheinen.

Also vor jeder Website kriechen diese Parameter prüfe :) Enjoy :)

PS kriechen: Es tut mir leid ich some1 Fall fühlt sich, dass ich Frage hier posten und dann Lösung veröffentlichen. Vor dem Stellen der Frage versuchte ich wirklich viel ..

Verwandte Themen