So richten Sie eine robot.txt ein, die nur die Standardseite einer Site zulässt

Angenommen, ich habe eine Website unter http://example.com. Ich würde wirklich gerne zulassen, dass Bots die Homepage sehen, aber jede andere Seite muss blockiert werden, da es für Spider sinnlos ist. Mit anderen WortenSo richten Sie eine robot.txt ein, die nur die Standardseite einer Site zulässt

http://example.com & http://example.com/ soll erlaubt werden, aber http://example.com/anything und http://example.com/someendpoint.aspx sollen blockiert werden.

Ferner wäre es toll, wenn ich bestimmte Abfrage-Strings auf die Homepage erlauben können Passthrough: http://example.com?okparam=true

aber nicht http://example.com?anythingbutokparam=true

Quelle

2008-09-04 Boaz

Also nach einigen Recherchen, hier ist das, was ich gefunden - eine Lösung, die durch die großen Suchanbieter akzeptabel: google, yahoo & msn (I auf einen Validator hier finden kann):

User-Agent: * 
Disallow: /* 
Allow: /?okparam= 
Allow: /$

Der Trick ist, das $, um das Ende der URL zu markieren.

Quelle

2008-09-04 20:34:05 Boaz

Grund robots.txt:

Disallow: /subdir/

I glaube nicht, dass du einen Ausdruck erstellen kannst, der 'alles außer der Wurzel' sagt, du musst alle Unterverzeichnisse ausfüllen.

Die Einschränkung der Abfragezeichenfolge ist auch in robots.txt nicht möglich. Sie müssen es im Hintergrundcode (dem Verarbeitungsteil) oder vielleicht mit Server-Rewrite-Regeln tun.

Quelle

2008-09-04 09:58:27 Biri

Disallow: * 
Allow: index.ext

Wenn ich mich richtig erinnere, sollte die zweite Klausel die erste außer Kraft setzen.

Quelle

2008-09-04 10:27:43 UnkwnTech

Google's Webmaster Tools Bericht, dass die Ablehnung immer Vorrang vor zulassen hat, so gibt es keine einfache Möglichkeit, dies in einer robots.txt Datei zu tun.

Sie könnten dies erreichen, indem Sie ein noindex,nofollowMETA Tag in das HTML jeder Seite außer der Homepage einfügen.

Quelle

2008-09-04 14:12:47 ceejayoz

Soweit ich weiß, unterstützen nicht alle Crawler das Tag erlauben. Eine mögliche Lösung besteht darin, alles außer der Startseite in einen anderen Ordner zu stellen und diesen Ordner nicht zuzulassen.

Quelle

2008-09-04 14:18:33 hakan

So richten Sie eine robot.txt ein, die nur die Standardseite einer Site zulässt

Antwort

Verwandte Themen