Was passiert, wenn eine verweigerte Seite (Robots) immer noch in sitemap.xml ist?

Ich möchte verhindern, dass eine Seite indexiert wird, zusammen mit ihren Assets (Bildern).Was passiert, wenn eine verweigerte Seite (Robots) immer noch in sitemap.xml ist?

Also, wenn ich Crawler, diese Seite zu überspringen, aber diese Seite noch in sitemap.xml registriert ist, werden alle Informationen auf dieser Seite indiziert werden?

Quelle

2017-06-29 Valentin

Hängt davon ab. Wie Sie "Crawlern eigentlich sagen, dass sie diese Seite überspringen sollen", ob Sie angegeben haben, wie diese externen Assets separat indexiert werden sollen, ob ein bestimmter Crawler Ihre Anweisungen respektieren möchte usw. pp. – CBroe

Diese Frage scheint nicht zu sein. Thema, weil es nicht im Rahmen der in der Hilfe beschriebenen – Will

robots.txt verbietet crawling, not indexing.

Wenn Sie das Crawlen einer URL in Ihrer robots.txt nicht zulassen und diese URL in Ihrer Sitemap aufführen, ist das Crawling weiterhin nicht zulässig. Das Auftreten in einer Sitemap ändert dies nicht.

Diese URL ist möglicherweise noch indiziert (ob in der Sitemap oder nicht).

Quelle

2017-06-29 13:28:17 unor

müssen Sie eine Seite abrufen, um sie zu indizieren. Wenn es von den Robots-Direktiven nicht zugelassen wird, wird es nicht indiziert. Nicht alle Crawler folgen robots.txt obwohl –

@JulienNioche: Nein, Sie können eine URL (keine Seite) indizieren, ohne die Seite zu holen. Viele Suchmaschinen (einschließlich Google-Suche) tun dies. In der Regel wird dann ein Hinweis wie "Die robots.txt der Site erlaubt uns das Crawlen dieser Seite nicht, deshalb können wir Ihnen keine Beschreibung anzeigen" angezeigt. Sie könnten sogar einen Titel anzeigen, der von Hyperlink-Ankern stammt, die damit verknüpft sind. – unor

Sie haben Recht, ich hatte diesen Aspekt nicht berücksichtigt. Vielen Dank! –

Um nur zur vorherigen Antwort hinzuzufügen, können Sie die Noindex Direktive in Ihrer robots.txt Datei verwenden. Es ist nicht Teil des Standard-AFAIK, wird aber häufig verwendet, siehe blog - obwohl es divergierende Meinungen darüber zu geben scheint. Alternativ können Sie the robots meta tags in Ihren Webseiten verwenden.

Wie üblich, gibt es keine Garantie, dass alle Crawler die Robots-Direktiven einhalten, jedoch die wichtigsten.

Quelle

2017-06-30 07:55:03

Was passiert, wenn eine verweigerte Seite (Robots) immer noch in sitemap.xml ist?

Antwort

Verwandte Themen