2009-04-08 19 views
3

in meiner robots.txt-Datei, ich habe die folgende ZeileGooglebot meine Website indexieren?

User-agent: Googlebot-Mobile Disallow:/

User-agent: GoogleBot Disallow:/

Sitemap: http://mydomain.com/sitemapindex.xml

Ich weiß, dass, wenn ich die ersten 4 Zeilen setzen, Googlebot wird nicht die Seiten indizieren, aber was ist, wenn ich die letzte Zeile setzen Sitemap: http://mydomain.com/sitemapindex.xml, wird googlebot in der Lage zu sein Dex die Seite?

Danke,

+0

dies ist eine Frage für Google, keine Programmiersprache Frage –

+1

ich Programmierung agree nicht aber kein Schaden für einen Programmierer, dies zu wissen. – Shoban

Antwort

2

Nein, ich glaube nicht, dass Google tun. Es ist eine Frage von Good Bot und Bad Bot. Auch wenn Sie eine robots.txt-Datei hinzufügen, um einen Bereich zu beschränken, können Bots immer noch crawlen. Es ist eigentlich eine Frage von Ja oder Nein. Robots.txt ist wie ein Warnschild und keine Sicherheitswand.

+1

Vereinbart mit Sicherheitsbedenken, OP möglicherweise nicht wissen, Bot-Szenarien, wenn er seine Website "von der Landkarte" vollständig behalten wollte. – Nullw0rm

4

ich robots.txt gegen meine eigene Domain getestet (die für jede Seite eine Sitemap-Eintrag hat) und Googlebot und Googlebot-Mobile zurück, dass sie Zugang Unzulässige wurden.

Auf dieser Grundlage - ich würde sagen, dass die robots.txt-Datei Vorrang vor allen Sitemaps nimmt.

Plus logisch gesehen - wenn Sie die gesamte Domain sperren, wird der Bot Zugang zum Sitemap nicht zulässig. Der Sitemap-Eintrag teilt den Crawlern einfach mit, wo Sie Ihre Sitemap finden können - nicht ihre Berechtigung, darauf zuzugreifen.

Auch wenn Sie die Sitemap erlaubt haben, glaube ich nicht, dass Bots Ihre Site crawlen würden - Sitemaps sind eher dafür gedacht dem Bot zu sagen, wie oft Sie Ihre Site crawlen, nicht was sie crawlen dürfen.

1

Googlebot nicht einmal in der Lage sein, den sitemapindex.xml

  • die robots.txt zu berühren ist eine Crawler-Richtlinie.
  • Die sitemap.xml wird über den Googlebot-Crawler abgerufen.
  • Googlebot dem sitemapindex.xml
  • keine Crawl-Abdeckung nicht zugreifen, keine Indizierung, keine SERP

Auflistung Sie diese mit Google Webmaster-Tool robots.txt Prüfinstrument und holen als Googlebot (in dem Test Labs Abschnitt).

+1

Sie sollten die Tippfehler ein wenig korrigieren, aber +1 für Ihre Klarheit über die Begriffe. – Nullw0rm

Verwandte Themen