2009-06-09 15 views
3

Ich baue eine Suchmaschine (zum Spaß) und es hat mich gerade aufgefallen, dass möglicherweise mein kleines Projekt havok durch Klicken auf Anzeigen und alle möglichen Probleme havok führen kann.Richtlinien für gute Webcrawler "Etikette"

Also, was sind die Richtlinien für gute Webcrawler "Etikette"?

Dinge, die in den Sinn:

  1. beachten Robot.txt Anweisungen
  2. Begrenzen Sie die Anzahl der gleichzeitigen Zugriffe auf den gleichen Domain
  3. nicht ad Links folgen Sie?

Stoppen die Crawler auf Anzeigen zu klicken - Dies ist besonders auf meiner Meinung nach im Moment ..., wie ich mein Bot verhindere aus ‚klicken‘ auf Anzeigen? Wenn es direkt zur URL in der Anzeige geht, wird es als Klick gezählt?

+0

Hat jemand gute Ressourcen zum Suchen und Parsen einer Domäne robot.txt? –

+0

http://www.robotstxt.org/ ist die De-facto-Referenz. Es scheint jedoch blockiert zu sein, wo ich arbeite, also kann ich das nicht überprüfen. Eine gewisse Ironie, da wir Webapps machen. – Powerlord

Antwort

3

Sie lesen nicht nur die Anweisung robots.txt. Sie sollten auch die meta tags with noindex and nofollow sehen.

Über die Ad-Frage, ich bin mir nicht sicher, aber ich denke, wenn Sie nur die Links lesen und dann ein anderes Mal die Seite eingeben, wird die eingegebene Seite keine Informationen darüber, wie Sie diese Adresse haben, und kann Laden Sie die Website für die "Pseudoclick"

2

Folgen Sie nicht den als rel = "nofollow" markierten Links.

Sie müssen sich auch nicht um Anzeigen kümmern. Wenn Sie nur HTML-Text einer Seite spidern, erhalten Sie in den meisten Fällen keine Anzeigenlinks - sie werden auf dem Client mithilfe von JavaScript generiert.