Vor kurzem sah ich eine robots.txt-Standort wie folgt:Verwendung von ‚Zulassen‘ in robots.txt
User-agent: *
Allow: /login
Allow: /register
ich nur Allow
Einträge und keine Disallow
Einträge gefunden.
Von this, konnte ich verstehen, robots.txt ist fast eine Blacklist-Datei zu Disallow
Seiten zu durchforstet werden. So wird Allow
nur verwendet, um einen Unterbereich der Domäne zuzulassen, der bereits mit Disallow
blockiert ist. Ähnlich wie folgt aus:
Allow: /crawlthis
Disallow:/
Aber hat die robots.txt keine Disallow
Einträge. Also lässt diese robots.txt Google alle Seiten crawlen? Oder erlaubt es nur die angegebenen Seiten, die mit Allow
gekennzeichnet sind?
(Der offizielle Standard erwähnt nur "User-Agent" und "Disallow". "*" Und "$" haben offiziell auch keine spezielle Bedeutung in Disallow Direktiven.) –