2016-05-19 12 views
1

Werden diese zwei Zeilen in robots.txt erfolgreich Google von der Indizierung Seiten mit einer URL stoppen, die wie etwas aussieht: http://www.domain-name.com/Produkt-tag/...SEO - robots.txt einen Ordner disallowing

User-agent: * 
Disallow: /product-tag/ 
Disallow: /product-tag/* 

Da ich ein Problem mit der Indexierung dieser Seiten durch Google habe, finde ich keinen anderen Weg, das zu stoppen.

Wie lange dauert es, bis die Änderungen in der robots.txt in den Suchmaschinen angezeigt werden?

+0

1. Ja (aber Sie können die letzte Zeile loswerden). 2. So lange wie Google Ihre Seite neu indiziert. Möglicherweise möchten Sie sich bei https://www.google.com/webmasters/tools/home anmelden (Sie * können * möglicherweise dort einen Neuindex anfordern, ich erinnere mich nicht) –

+0

bezogen: http: // stackoverflow. com/q/37309249/3597276 –

Antwort

1

Robots.txt wird Google daran hindern, Ihre Website zu crawlen. Nicht unbedingt aus Indizierung. Und vor allem wird es nicht entfernen, wenn es bereits indiziert hat.

Sie sollten stattdessen einen meta noindex Tag HEAD HTML-Code auf Ihrer Seite hinzufügen und dann können Google die Seite erneut durchsucht, dies zu sehen (das heißt tun NICHT Block robots.txt verwenden). Nachdem alle Seiten von Google getrennt wurden (was einige Zeit dauern kann), können Sie sie mit robots.txt blockieren, wenn Sie möchten.

Der Hauptgrund und der Vorteil von robots.txt besteht darin, dass Google keine Zeit mehr für die Seiten benötigt. Jeder Website ist ein Crawl-Budget zugewiesen, sodass täglich nur eine bestimmte Anzahl von Seiten von Google neu indiziert wird. Also, wenn es viel von diesem Crawl Budget auf Seiten verschwendet, die Sie nicht indiziert werden wollen, dann hält es nicht die Seiten, die Sie do möchten indiziert als so aktuell wie es tun könnte.

Außerdem sollten Sie nicht auf robots.txt angewiesen werden, um sensible Dateien auszublenden, da einige Crawler (wenn auch nicht Google) sie einfach ignorieren.

Schließlich, wenn Ihre Produkte bereits indiziert sind, und das sind doppelte Seiten und deshalb wollen Sie nicht indiziert werden, dann können Sie eine rel canonical link in Ihrem HEAD-Code auf die richtige Seite anstelle von noindex zeigen.