2017-12-22 10 views
3

Ich weiß, dass die Datei robots.txt verwendet wird, um Web-Crawler von Index-Content-Websites Dritter zu blockieren.Welchen Sinn hat robots.txt in GitHub-Seiten?

Wenn jedoch das Ziel dieser Datei ist, einen privaten Bereich der Website zu begrenzen oder einen privaten Bereich zu schützen, ist der Sinn in versuchen, den Inhalt mit robots.txt ausgeblendet, wenn alle im GitHub-Repository sehen können ?

Meine Frage erweitern die Beispiele mit benutzerdefinierten Domäne.

Gibt es eine Motivation, die Datei robots.txt innerhalb von GitHub-Seiten zu verwenden? Ja oder Nein? Und warum?

Alternative 1
Für diesen Inhalt effektiv verborgen bleiben, dann Notwendigkeit, für die Website zu zahlen, ist ein eigenes Repository zu bekommen.

+0

Die Motivation ist die gleiche wie bei jeder anderen Website: verhindern Sie, dass Roboter einen Teil davon kriechen. Es hat nichts damit zu tun, dass es privat oder unzugänglich ist: Wenn es privat oder unzugänglich wäre, hätten Roboter sowieso keine Möglichkeit, darauf zuzugreifen. –

Antwort

2

Die Absicht von robots.txt ist nicht private Bereiche zu begrenzen, weil Roboter nicht einmal Zugang zu ihnen haben. Stattdessen ist es für den Fall, dass Sie Müll oder was auch immer Verschiedenes haben, dass Sie nicht von Suchmaschinen oder so indexiert werden sollen.

Sagen Sie zum Beispiel. Ich schreibe Flash-Spiele für Unterhaltung und ich benutze GitHub Pages, damit die Spiele nach Updates suchen können. Ich habe this file auf meinem GHP gehostet, die alle, dessen Inhalt

10579 
2.2.3 
https://github.com/iBug/SpaceRider/tree/master/SpaceRider%202 

Es enthält drei Informationen: interne Nummer der neuen Version, Anzeigenamen der neuen Version und Download-Link. Daher ist es sicher nutzlos, wenn es von Crawlern indiziert wird. Wenn ich also eine robots.txt habe, dann ist das eine Art von Zeug, das ich nicht indexieren würde.

+0

Dann dient die Datei robots.txt nur dazu, den Müll meines Repositories zu verstecken? dient nicht zum Schutz eines eingeschränkten Bereichs der Website? –

+2

@ JonathasB.C. Auch ohne "robots.txt" haben Crawler ** keinen Zugriff auf ** eingeschränkte Bereiche. Crawler werden angewiesen, bestimmte Bereiche zu ignorieren, auf die sie ** Zugriff haben **. – iBug

Verwandte Themen