2010-10-29 4 views

Antwort

28

Sie benötigen eine einfache robots.txt Datei. Im Grunde ist es eine Textdatei, die Suchmaschinen anweist, bestimmte Seiten nicht zu indizieren.
Sie müssen es nicht in die Kopfzeile Ihrer Seite aufnehmen; Solange es sich im Root-Verzeichnis Ihrer Website befindet, wird es von Crawlern abgeholt.
Erstellen es in dem Stammordner Ihrer Website und setzen Sie den folgenden Text in:

User-Agent: * 
Disallow: /imprint-page.htm 

Beachten Sie, dass imprint-page.html im Beispiel mit dem tatsächlichen Namen der Seite (oder das Verzeichnis) ersetzen würde, die Sie wünschen um nicht indexiert zu werden.

Das war's! Wenn Sie weiter fortgeschritten sein möchten, können Sie für weitere Informationen here, here oder here auschecken. Außerdem können Sie kostenlose Tools online finden, die eine robots.txt Datei für Sie generieren (zum Beispiel here).

+0

Hier ist ein gutes Tutorial: http://www.javascriptkit.com/howto/robots.shtml –

+0

Danke Sam! Deinen Link neben dem anderen Tutorial hinzugefügt. – Donut

+0

Vielen Dank! Muss ich robots.txt irgendwo in den Header aufnehmen? Oder ist es genug, um es einfach in die Wurzel der Website fallen zu lassen? –

5

Sie können Setup eine robots.txt-Datei, um zu versuchen und Suchmaschinen zu sagen, bestimmte Verzeichnisse zu ignorieren.

See here for more info.

Grundsätzlich gilt:

User-agent: * 
Disallow: /[directory or file here] 
25

Sie können auch

folgende Meta-Tag in HEAD dieser Seite hinzufügen
<meta name="robots" content="noindex,nofollow" /> 
+0

gute Idee. Hab das zusätzlich gemacht. –

+6

Dies ist eine bessere Lösung als die Verwendung von robots.txt. Der Grund dafür ist, wenn Sie eine Seite mit robots.txt auslesen, werden Suchmaschinen die Seite nicht einmal besuchen. Wenn Links auf die Seite verweisen, werden sie nicht aus dem Index entfernt, weil Sie es ihnen nicht gesagt haben. Google zeigt die Seite ohne Beschreibung an, weil sie die Seite kennen, aber nicht wissen, was auf der Seite steht. Die einzige Möglichkeit, sie explizit aus dem Index zu entfernen, besteht darin, den Engines mit dem Befehl 'noindex' mitzuteilen, dass sie überhaupt nicht angezeigt werden sollen. – eywu

+1

Dies ist ein kleines Problem (zu viel mehr Zeit für die Codierung), wenn der Kopf dynamisch als serverseitige Sprache wie PHP enthalten ist, die für alle Seiten gleich ist. –

3

Heute ist die beste Methode, einen robots meta tag und setzen Sie ihn auf noindex,follow zu verwenden:

<meta name="robots" content="noindex, follow"> 
2
<meta name="robots" content="noindex, nofollow"> 

Gerade sind diese Zeile in Ihrer <html> tag. Warum erzähle ich Ihnen das, wenn Sie die robots.txt-Datei verwenden, um Ihre URLs zu verbergen, die Anmeldeseiten oder andere geschützte URLs sein könnten, die Sie nicht anderen Personen oder Suchmaschinen zeigen.

Was ich tun kann, ist nur Zugriff auf die robots.txt-Datei direkt von Ihrer Website und kann sehen, welche URLs Sie haben, sind geheim. Was ist dann die Logik hinter dieser robots.txt-Datei?

Der gute Weg ist, das Meta-Tag von oben zu integrieren und sich vor niemandem zu schützen.

Verwandte Themen