2017-04-07 4 views
1

Für eine Website möchte ich einen Web-Crawling unter /telecommandes Pfad ausführen. Es ist robots.txt:Was bedeutet das Pluszeichen in robots.txt?

User-agent: * 
Disallow: *telecommande++* 

Meine Fragen sind:

  • Was bedeutet das Pluszeichen bedeutet in diesem Fall?
  • Und ist es angemessen, die URL /telecommandes-box-decodeur.html zu crawlen? in Bezug auf die robots.txt-Datei?

Antwort

1

Per der original robots.txt specification, + hat keine besondere Bedeutung in Disallow Werte, und keiner hat *.

So Crawlen von /telecommandes-box-decodeur.html wäre erlaubt.

Nicht erlaubt wäre zum Beispiel das Crawlen von /*telecommande++*.html (wörtlich).


Wenn Sie höflich sein wollen, könnten Sie „proprietär“ robots.txt Erweiterungen berücksichtigen, beispielsweise von Google und anderen Suchmaschinen. Viele Autoren werden möglicherweise nicht erkennen, dass diese nicht Teil der offiziellen Spezifikation sind und erwarten, dass sie auch für andere Crawler funktionieren.

Per Google’s robots.txt documentation, die + hat keine besondere Bedeutung, aber * hat ein (es bedeutet: eine beliebige Folge von Zeichen).

Also Crawlen von wäre immer noch erlaubt.

Nicht erlaubt wäre zum Beispiel Crawlen von /foo/telecommande++bar.html (und immer noch /*telecommande++*.html).