Wie Paulus sagte ein Start Viele robots.txt-Interpreter sind nicht zu hell und interpretieren möglicherweise Wildcards im Pfad nicht so, wie Sie sie verwenden möchten.
Das heißt, einige Crawler versuchen, dynamische Seiten von selbst zu überspringen, da sie befürchten, dass sie in Endlosschleifen auf Links mit unterschiedlichen URLs hängen bleiben könnten. Ich gehe davon aus, dass Sie diese Frage stellen, weil Sie einem mutigen Crawler gegenüberstehen, der sich bemüht, diese dynamischen Pfade zu erreichen.
Wenn Sie Probleme mit bestimmten Crawlern haben, können Sie versuchen, den Crawler genauer zu untersuchen, indem Sie die Kapazität von robots.txt durchsuchen und einen bestimmten robots.txt-Abschnitt dafür angeben.
Wenn Sie diesen Zugriff auf dynamische Seiten generell nicht zulassen möchten, sollten Sie Ihr robots.txt-Design überdenken.
In den meisten Fällen befinden sich die dynamischen Parameter "Seiten" in einem bestimmten Verzeichnis oder einem bestimmten Satz von Verzeichnissen. Deshalb ist es normalerweise sehr einfach, einfach zu verbieten:/cgi-bin oder/app und damit fertig zu werden.
In Ihrem Fall scheinen Sie die Wurzel einem Bereich zuzuordnen, der Parameter behandelt. Sie könnten die Logik der robots.txt umkehren wollen und etwas sagen wie:
User-agent: *
Allow: /index.html
Allow: /offices
Allow: /static
Disallow:/
Auf diese Weise Ihre Zulassungsliste Ihre Disallow Liste außer Kraft gesetzt werden, indem speziell Hinzufügen welchen Crawler sollte Index. Beachten Sie, dass nicht alle Crawler gleich erstellt werden. Möglicherweise möchten Sie diese robots.txt zu einem späteren Zeitpunkt verfeinern, indem Sie einen bestimmten Abschnitt für jeden Crawler hinzufügen, der sich noch nicht ordnungsgemäß verhält.
Nach [dieser] (http://smackdown.blogsblogsblogs.com/2008/05/23/googlebot-creates-pages-instead-of-simply-indexing-them-new-form-crawling-algo-goes -bad /), Suchseiten zu verweigern kann eine wirklich gute Idee sein. Diese Frage ist also sehr relevant und sollte nicht geschlossen werden. –