Ich benutze Nutch 1.4, um Websites zu crawlen. Zu Demonstrationszwecken begann ich mit jabong.com zu crawlen, aber ich bemerkte, dass nutch nicht alle Links auf der Site abrufen konnte.Nutch konnte bestimmte Site nicht crawlen
Nach dem Besuch http://www.jabong.com/women/clothing/womens-suits-sets/ Es werden keine Links auf dieser Site abgerufen, die auf Bildern zugeordnet sind.
Ich habe konfiguriert nutch als: - conf/nuth-default.xml ---> hinzugefügt, um den Agentennamen conf/regex-urlfilter.txt ---> Statt +. Ich schrieb +^http: // (. [A-z0-9] *) * jabong.com/ seed.txt enthält http://www.jabong.com/
Kann mir jemand sagen, was das Problem sein könnte, es nicht alles abruft Links?