Nehmen wir an, dass wir eine Datei im Web platzieren, die öffentlich bewertbar ist, wenn Sie die direkte URL kennen. Es gibt keine Links, die auf die Datei verweisen, und die Verzeichnislisten wurden ebenfalls auf dem Server deaktiviert. Während es öffentlich zugänglich ist, gibt es keine Möglichkeit, die Seite zu erreichen, außer dass die genaue URL zu dieser Datei eingegeben wird. Wie groß ist die Wahrscheinlichkeit, dass ein Webcrawler beliebiger Art (nett oder böswillig) diese Datei durch Crawlen und Indizieren der Datei finden kann?Web-Crawling und seine Einschränkungen
Für mich, obwohl es öffentlich zugänglich ist, wird es Glück oder spezifische Kenntnisse der Suche nach der Datei erfordern. So wie Gold im Hinterhof vergraben wird und jemand es ohne Karte finden kann oder etwas zu wissen ist dort vergraben.
Ich kann einfach nicht anders sehen, es würde entdeckt werden, aber darum frage ich die Stackoverflow-Community.
Danke.
Wäre eine robots.txt die URL angeben Crawlern schlecht erzogene, die sonst wäre es nicht immer gefunden haben? – MarkJ
Ja, weshalb ich sagte "wenn es nicht wichtig ist". Schlechte Crawler füttern (normalerweise) nicht öffentlich zugängliche Suchmaschinen. Wenn also Suchmaschinenindexierung das Hauptanliegen ist, ist robots.txt ein akzeptabler Ansatz. – ceejayoz
Es braucht nur einen schlechten Crawler, um einen Link zu veröffentlichen, und dann kann ein "guter" Crawler es ernten! – Arafangion