2017-08-02 3 views
0

Ich habe die folgende robots.txt für mehr als ein Jahr, scheinbar ohne Probleme hat:Warum blockiert Googlebot alle meine URLs, wenn die einzige Ausnahme, die ich in robots.txt ausgewählt habe, für iisbot war?

User-Agent: * 

User-Agent: iisbot 
Disallow:/



Sitemap: http://iprobesolutions.com/sitemap.xml 

Und von dem robots.txt-Tester Ich bin all enter image description here

Warum ist Googlebot die folgenden Fehler immer blockiert meine URLs, wenn die einzige Ausnahme, die ich ausgewählt habe, für iisbot war?

+0

Per https://stackoverflow.com/questions/20294485/is-it-possible-to-list-multiple-user-agentes-in-one-line es sieht aus wie Sie haben, weil Sie 'User-Agent: *' es liest es auch als 'User-Agent: * iisbot' – WOUNDEDStevenJones

Antwort

3

Aufeinanderfolgende User-Agent Zeilen werden addiert. Die Disallow gilt also für User-Agent: * sowie User-Agent: iisbot.

Sitemap: http://iprobesolutions.com/sitemap.xml 

User-Agent: iisbot 
Disallow:/

Sie brauchen eigentlich nicht die User-Agent: *.

+0

Entschuldigung der tatsächliche Code hat leere Zeilen dazwischen und ich habe es in der Frage aktualisiert. Wenn das immer noch falsch ist, könnten Sie bitte den Code für mich eingeben? –

+0

Ich habe meine Anser bearbeitet. Leere Zeilen werden ignoriert. –

+0

Jetzt, nachdem ich Ihren Code verwendet habe, meldet google crawl das folgende Problem: "Die Sitemap enthält URLs, die von robots.txt blockiert werden." siehe Screenshot: https://www.dropbox.com/s/uk5xsbuk7yqo6za/Screenshot%202017-08-02%2016.08.13.png?dl=0 Irgendeine Idee, was Problem ist? –

1

Ihre robots.txt ist nicht gültig (gemäß original robots.txt specification).

  • Sie können mehrere Datensätze haben.
  • Datensätze werden durch Leerzeilen getrennt.
  • Jeder Datensatz muss mindestens eine Zeile User-agent und mindestens eine Zeile Disallow enthalten.

Die Spezifikation definiert nicht, wie ungültige Datensätze behandelt werden sollen. User-Agents interpretieren also Ihre robots.txt entweder als einen Datensatz (ignorieren die leere Zeile), oder sie interpretieren den ersten Datensatz als alles erlaubend (zumindest wäre das die wahrscheinlichste Annahme).

Wenn Sie alle Bots zulassen möchten (mit Ausnahme von „iisbot“) alles zu kriechen, sollten Sie verwenden:

User-Agent: * 
Disallow: 

User-Agent: iisbot 
Disallow:/

Alternativ könnten Sie den ersten Datensatz auslassen, da alles so dass der Standard sowieso. Aber ich würde es vorziehen, hier explizit zu sein.

+0

Danke, aber ich bekomme immer noch die Sitemap Fehler per https://www.dropbox.com/s/ezdw64korncw2r9/Screenshot%202017-08-03%2010.15.57.png?dl=0 wenn ich den Code wie Sie gesagt, gefolgt verwendet von der sitemap per: https://www.dropbox.com/s/mfd3ozz9343tnjg/Screenshot%202017-08-03%2010.15.01.png?dl=0 –

+0

eigentlich auch wenn ich deinen genauen code benutze bekomme ich immer noch den fehler . –

+0

@JulieS .: Ich würde sagen, dass die in der Search Console von Google gemeldeten Sitemap-Warnungen nicht direkt auf das Problem mit Ihrer robots.txt bezogen sind. Meine Vermutung ist, dass es ein Caching-Problem ist: Google braucht etwas Zeit, bis es seinen Cache der robots.txt aktualisiert, und dann sollte es keine blockierten URLs mehr in der Sitemap geben (weil mit Ihrer neuen robots.txt keine URL ist für sie mehr blockiert). – unor

Verwandte Themen