2014-02-25 6 views
5

Leider habe ich Fälle, bei denen die Groß- und Kleinschreibung nicht berücksichtigt wird, die nicht kurzfristig ersetzt werden können. Einige Verzeichnisse müssen vom Crawling ausgeschlossen werden, also muss ich sie in meinem in meinem robots.txt. Nehmen wir /Img/ als Beispiel. Wenn ich das alles Kleinbuchstaben halten ...Sollte ich in der robots.txt verschiedene Groß-/Kleinschreibung für Verzeichnisse verwenden, bei denen die Groß-/Kleinschreibung nicht berücksichtigt wird?

User-agent: * 
Disallow: /img/ 

... wo es sich nicht auf den tatsächlichen physischen Pfad und Adressen mit /Img/ oder /IMG/ sind die Disallow Richtlinie nicht angewendet. Crawler werden diese Variationen als unterschiedliche Pfade behandeln.

Es macht Spaß, in dieser Angelegenheit Microsoft’s robots.txt zu betrachten. Sie verwenden wahrscheinlich IIS-Server, und SERPs sind nur voll mit unzulässigen Adressen - nur in anderen Fällen.

Was kann ich tun?
Ist es gültig (und wirksam), Folgendes zu sagen?

User-agent: * 
Disallow: /Img/ 
Disallow: /img/ 
Disallow: /IMG/ 

Antwort

3

Die ursprüngliche robots.txt-Spezifikation sagt nichts über Setzkasten in Dateipfaden, sondern nach Google's robots.txt specification, Dateipfade sind auf jeden Fall case-sensitive. Google gibt eindeutig an, dass "Disallow:/img /" nur "/ img /" blockiert, nicht "/ Img /" oder "/ IMG /". Ihre Lösung ist definitiv gültig und wird das Problem lösen.

Ich würde nur auf diese Lösung zurückgreifen, wenn ich Grund zu der Annahme hätte, dass die alternativen URLs tatsächlich gecrawlt werden, und sie verursachen ein Problem. Sie können Ihre robots.txt-Datei einfach in ein nicht zu behebendes Chaos verwandeln.

2

Da die Disallow field URL-Pfade als Wert akzeptiert und URL paths are case-sensitive, ist Ihre Annahme korrekt.

Also ja, wollen, wenn Sie alle URLs, deren Wege beginnen mit Groß- und Kleinschreibung /img/blockieren, müssen Sie hinzuzufügen:

Disallow: /img/ 
Disallow: /IMG/ 
Disallow: /Img/ 
Disallow: /IMg/ 
Disallow: /ImG/ 
Disallow: /iMg/ 
Disallow: /iMG/ 
Disallow: /imG/ 
Verwandte Themen