Zunächst verwenden Sie weiterhin das Wort "indexiert". Daher möchte ich sicherstellen, dass Sie wissen, dass die robots.txt-Konvention nur automatischen Crawlern vorschlägt, bestimmte URLs in Ihrer Domain zu vermeiden Seiten, die in einer robots.txt-Datei aufgelistet sind, können weiterhin in Suchmaschinenindizes angezeigt werden, wenn sie andere Daten über die Seite haben. Zum Beispiel Google explicitly states werden sie immer noch eine URL indizieren und auflisten, auch wenn sie nicht crawlen dürfen. Ich wollte nur, dass Sie sich dessen bewusst sind, falls Sie das Wort "indexiert" verwenden, um "in einer Suchmaschine gelistet" zu sein, anstatt "von einem automatisierten Programm gecrawlt" zu werden.
Zweitens gibt es keinen Standard Weg, um das zu erreichen, was Sie verlangen. Per "The Web Robots Pages":
Beachten Sie auch, dass Globbing und reguläre Ausdrücke sind nicht entweder in der User-Agent oder Verbieten Linien unterstützt. Das '*' im Feld User-Agent ist ein spezieller Wert, der "beliebiger Roboter" bedeutet. Insbesondere können Sie keine Zeilen wie "User-Agent: Bot", "Disallow:/tmp/*" oder "Disallow: * .gif" haben.
Das gesagt, es ist eine allgemeine Ergänzung, die viele Crawler unterstützen. Zum Beispiel beschreiben sie in Google's documentation of they directives they support Unterstützung für Mustervergleiche, die mit * als Platzhalter umgehen. Sie könnten also eine Disallow: /*.html$
Direktive hinzufügen und dann würde Google keine URLs mit der Endung .html
crawlen, obwohl sie immer noch in den Suchergebnissen landen könnten.
Aber, wenn Ihr primäres Ziel ist, Suchmaschinen mitzuteilen, welche URL Sie "sauber" und bevorzugt, dann was Sie eigentlich suchen ist die Angabe Canonical URLs. Sie können ein link rel="canonical"
Element auf jeder Seite mit Ihrer bevorzugten URL für diese Seite einfügen, und Suchmaschinen, die dieses Element verwenden, verwenden es, um zu bestimmen, welchen Pfad Sie bevorzugen, wenn Sie diese Seite anzeigen.
Ich benutze 'Disallow:/**. Html $' in robots.txt Tester auf Google Webmaster und scheint zu arbeiten. –