2016-10-19 1 views
1

Vor kurzem sah ich eine robots.txt-Standort wie folgt:Verwendung von ‚Zulassen‘ in robots.txt

User-agent: * 
Allow: /login 
Allow: /register 

ich nur Allow Einträge und keine Disallow Einträge gefunden.

Von this, konnte ich verstehen, robots.txt ist fast eine Blacklist-Datei zu Disallow Seiten zu durchforstet werden. So wird Allow nur verwendet, um einen Unterbereich der Domäne zuzulassen, der bereits mit Disallow blockiert ist. Ähnlich wie folgt aus:

Allow: /crawlthis 
Disallow:/

Aber hat die robots.txt keine Disallow Einträge. Also lässt diese robots.txt Google alle Seiten crawlen? Oder erlaubt es nur die angegebenen Seiten, die mit Allow gekennzeichnet sind?

Antwort

2

Sie haben Recht, dass diese robots.txt-Datei es Google ermöglicht, alle Seiten auf der Website zu crawlen. Eine gründliche Anleitung finden Sie hier: http://www.robotstxt.org/robotstxt.html.

Wenn Sie Googlebot wollen nur die angegebenen Seiten erlaubt zu werden dann wäre richtige Format zu kriechen:

User Agent:* 
Disallow:/ 
Allow: /login 
Allow: /register 

(Ich würde normalerweise diese bestimmte Seiten nicht zulassen, obwohl, da sie nicht viel Wert für Suchende bieten.

)

Es ist wichtig, dass die Linie zulassen Befehl nur mit einigen Robotern (einschließlich Googlebot arbeitet beachten)

+0

(Der offizielle Standard erwähnt nur "User-Agent" und "Disallow". "*" Und "$" haben offiziell auch keine spezielle Bedeutung in Disallow Direktiven.) –

1

Es gibt keinen Punkt eine robots.txt Datensatz aufweist, der Allow Linien, aber keine Disallow l hat ines. Es ist sowieso erlaubt, dass alles standardmäßig gecrawlt wird.

Nach dem original robots.txt specification (was nicht Allow nicht definiert), es ist auch ungültig, da mindestens eine Disallow Linie erforderlich ist (fett Hervorhebung von mir):

Die Aufzeichnung beginnt mit einem oder mehreren User-agent Linien durch eine oder mehrDisallow Linien folgen [...]

Mindestens ein FeldDisallow muss in einem Datensatz vorhanden sein.


Mit anderen Worten, ein Rekord wie

User-agent: * 
Allow: /login 
Allow: /register 

entsprechen den Rekord

User-agent: * 
Disallow: 

dh alles gekrochen werden darf, einschließlich (aber nicht beschränkt auf) URLs mit Pfaden, die mit /login und /register beginnen.