Web-Crawling und seine Einschränkungen

Nehmen wir an, dass wir eine Datei im Web platzieren, die öffentlich bewertbar ist, wenn Sie die direkte URL kennen. Es gibt keine Links, die auf die Datei verweisen, und die Verzeichnislisten wurden ebenfalls auf dem Server deaktiviert. Während es öffentlich zugänglich ist, gibt es keine Möglichkeit, die Seite zu erreichen, außer dass die genaue URL zu dieser Datei eingegeben wird. Wie groß ist die Wahrscheinlichkeit, dass ein Webcrawler beliebiger Art (nett oder böswillig) diese Datei durch Crawlen und Indizieren der Datei finden kann?Web-Crawling und seine Einschränkungen

Für mich, obwohl es öffentlich zugänglich ist, wird es Glück oder spezifische Kenntnisse der Suche nach der Datei erfordern. So wie Gold im Hinterhof vergraben wird und jemand es ohne Karte finden kann oder etwas zu wissen ist dort vergraben.

Ich kann einfach nicht anders sehen, es würde entdeckt werden, aber darum frage ich die Stackoverflow-Community.

Danke.

Quelle

2009-05-25 Anonymous

Links können überall vorkommen - jemand könnte Twitter einen Link dazu, oder posten Sie es auf Facebook oder in einem Kommentar auf einem Blog. Es dauert nur eine.

Wenn es wichtig ist, dass es nirgendwo auftaucht, hinter ein Passwort setzen.

Wenn es nicht wichtig ist, aber Sie bevorzugen, dass es nicht einfach über die Suchmaschine zugänglich ist, verwenden Sie eine robots.txt-Datei, um gut erzogene Crawler zu blockieren.

Quelle

2009-05-25 17:51:48 ceejayoz

Wäre eine robots.txt die URL angeben Crawlern schlecht erzogene, die sonst wäre es nicht immer gefunden haben? – MarkJ

Ja, weshalb ich sagte "wenn es nicht wichtig ist". Schlechte Crawler füttern (normalerweise) nicht öffentlich zugängliche Suchmaschinen. Wenn also Suchmaschinenindexierung das Hauptanliegen ist, ist robots.txt ein akzeptabler Ansatz. – ceejayoz

Es braucht nur einen schlechten Crawler, um einen Link zu veröffentlichen, und dann kann ein "guter" Crawler es ernten! – Arafangion

In der Vergangenheit wurden solche versteckten Orte angeblich mit Hilfe der Google Toolbar (und wahrscheinlich anderer solcher Browser-Plugins) "gefunden", die vom Eigentümer/Uploader verwendet wurde.

Quelle

2009-05-25 17:52:09 mjy

Sehr interessant finden Sie einen Link zu mehr Informationen dazu? Es springt nicht von einer Google-Suche heraus. +1 – Copas

http://blog.tmcnet.com/blog/robert-hashemian/google-toolbar-exposing-hidden-web-pages.html – mjy

-2

können Sie Google Search API verwenden. für die Webseite, die nicht mit einer anderen Webseite verlinkt ist. wir haben keine Ahnung davon.

Quelle

2009-05-25 17:52:47 ariso

Uh ....... was? – ceejayoz

dies Unter der Annahme:

Verzeichniseintrag: deaktiviert. Niemand
kennt die Existenz der Seite. richtig eingestellt
Sie vertrauen nicht alle Leute, Ihr Link
Ihre Datei
Sie die robots.txt haben (dann den Referer an den verlinkten Seite senden Ihr Browser kann) verbreiten keine Links enthalten zu jemand anderem.
Sie haben Glück

Nun, Ihre Seite wird nicht wahrscheinlich gefunden oder entdeckt werden.

Fazit?

Verwenden Sie eine. Htaccess-Datei, um Ihre Daten zu schützen.

Quelle

2009-05-25 17:53:09

Auch wenn die Benutzer nicht vorhaben, besteht eine sehr gute Chance, dass sie die Verbindung versehentlich verbreiten. –

Danke, ja, ein guter Punkt über .htaccess. Niemand weiß über die Datei Bescheid, mit Ausnahme derer, die Administratorrechte für den Server haben, sodass privilegierte und vertrauliche Informationen für die Adresse der Seite vorliegen. –

Sicherheit durch Dunkelheit funktioniert nie. Sie sagen, Sie sind nicht zu verknüpfen, und ich glaube Ihnen. Aber nichts hindert Ihren Benutzer daran, absichtlich oder unionell zu verlinken. Wie ceejayoz angedeutet hat, gibt es jetzt so viele verschiedene Orte, um Links zu veröffentlichen. Und es gibt sogar "Lesezeichen-Synchronisierer", von denen die Leute denken, dass sie privat sind, aber tatsächlich für die Welt offen sind.

Verwenden Sie also echte Authentifizierung. Wenn Sie es nicht tun, werden Sie es später bereuen.

Quelle

2009-05-25 17:53:38

Hier kann ich Ihnen nicht widersprechen, und niemand außer den Benutzern mit Administratorrechten für die Server weiß über den Speicherort dieser Datei Bescheid. Jemand flippt gerade aus, weil die Datei öffentlich zugänglich ist, und ich verstehe, dass es hier Bedenken gibt, aber die Person ist auch unvernünftig und nicht sehr vernünftig in Bezug auf die Schwere und die tatsächliche Wahrscheinlichkeit, dass jemand die Datei entdeckt. –

das Vorhandensein von Google Toobar und ähnliche Tools machen es fast sicher, dass jemand Ihre 'obskure' URL notice – Javier

Wenn nur Admins Zugriff haben, können Sie es nicht nur auf einen localhost nur HTTP virtuellen Host und machen sie SSH in Verwenden Sie dann den lokalen Browser? –

Sie haben Recht.Web Crawler sind, im übertragenen Sinne, Spinnen - sie müssen eine Möglichkeit haben, das Web zu durchqueren (Hyperlinks) und auf Ihrer Seite zu landen.

Um Ihre hypothetische Seite in die Ergebnisse einer Suchmaschine einzutragen, müssen Sie ihre URL manuell an die Suchmaschine senden. Es gibt mehrere Dienste zum Senden Ihrer Seite an diese Suchmaschinen. Siehe "URLs an Suchmaschinen senden"

Außerdem wird Ihre Seite nur angezeigt, wenn die Suchmaschine feststellt, dass Ihre Seite genügend Metadaten/Karma innerhalb des proprietären Rankingsystems der Suchmaschine hat. Siehe "SEO" und "Meta-Keywords".

Quelle

2009-05-25 17:55:55

Sie müssen die URL nicht manuell eingeben, damit sie in den Ergebnissen angezeigt wird. Wenn Sie auf einen Link auf der Seite zu einem anderen Server klicken, auf dem die letzten Verweise angezeigt werden, kann Google dies übernehmen. Wenn ein Freund den Link auf Twitter veröffentlicht, könnte Google das übernehmen. – ceejayoz

-1

Ja, Ihr Web Crawler besucht URLs, identifiziert alle Hyperlinks auf der Seite und fügt sie der Liste der zu besuchenden URLs hinzu, die Crawl-Grenze genannt wird, aber diese Hyperlinks und URLs haben schlechte Links. Sobald Nutzer auf einen fehlerhaften Link klicken und auf der Malware-Website landen, werden sie oft mit einem gefälschten Codec-Installationsdialog versehen. Wenn das sie nicht bekommt, wird die Seite immer noch geladen werden Dutzende von anderen Taktiken, um ihren Computer zu infizieren. Von gefälschten Symbolleisten, Scareware, Rogue-Software und mehr haben die Seiten alles. Eine Site, auf die sie gestoßen sind, hat sogar versucht, 25 verschiedene Malware-Teile zu installieren. Solche Sites machen Leute anfällig für Installationen von Spam-Bots, Rootkits, Passwort-Steelers und eine Auswahl an Trojanischen Pferden, unter anderem.

Quelle

2009-08-21 07:20:34

gekauften/verkauften Clickstream-Daten in sonst nicht verknüpften Inhalt Entdeckung führen: http://en.wikipedia.org/wiki/Clickstream

Quelle

2010-10-01 18:49:48

Web-Crawling und seine Einschränkungen

Antwort

Verwandte Themen