2009-03-11 7 views
6

Kurze Frage:Hat jemand jeden C# -Code robots.txt zu analysieren und bewerten URLS dagegen

Hat jemand eine C# -Code bekam robots.txt zu analysieren und dann zu bewerten URLS dagegen so sehen, wenn sie ausgeschlossen würden oder nicht.

Lange Frage:

Ich habe eine Sitemap für einen neuen Standort zu schaffen noch Google veröffentlicht werden. Die Sitemap hat zwei Modi, einen Benutzermodus (wie eine herkömmliche Sitemap) und einen "Admin" -Modus.

Der Admin-Modus zeigt alle möglichen URLs auf der Site an, einschließlich benutzerdefinierter URLs oder URLs für einen bestimmten externen Partner - wie example.com/oprah für jeden, der unsere Site auf Oprah sieht. Ich möchte veröffentlichte Links irgendwo anders als in einer Excel-Tabelle verfolgen.

Ich würde annehmen, dass jemand den /oprah Link auf ihrem Blog oder irgendwo veröffentlichen kann. Wir wollen nicht, dass diese Mini-Oprah-Seite indiziert wird, weil dies dazu führen würde, dass Nicht-Oprah-Zuschauer die speziellen Oprah-Angebote finden könnten.

So zur gleichen Zeit erstellte ich die Sitemap Ich habe auch URLs wie /oprah hinzugefügt, um von unserer robots.txt Datei ausgeschlossen werden.

Dann (und das ist die eigentliche Frage) Ich dachte 'wäre es nicht nett, in der Sitemap zeigen zu können, ob Dateien für Roboter indiziert und sichtbar sind'. Das wäre ziemlich einfach - Parsen Sie einfach robots.txt und evaluieren Sie dann einen Link dazu.

Allerdings ist dies ein "Bonus-Feature" und ich habe sicherlich keine Zeit zu gehen und es zu schreiben (auch wenn es wahrscheinlich nicht so komplex ist) - also habe ich mich gefragt, ob jemand schon irgendeinen Code zum Parsen von Robotern geschrieben hat .txt ?

Antwort

8

Hassen Sie das sagen, aber googeln Sie einfach "C# robots.txt Parser" und klicken Sie auf den ersten Treffer. Es ist ein CodeProject article about a simple search engine implemented in C# called "Searcharoo", und es enthält eine Klasse Searcharoo.Indexer.RobotsTxt, wie folgt beschrieben:

  1. prüfen und, falls vorhanden, herunterladen und die Datei robots.txt auf der
  2. eine Schnittstelle bereitstellen Website analysieren für die Spinne jede URL gegen die robots.txt Regeln fördern
+2

oops. Ich gebe zu, dass ich dieses Mal nicht nach Google gesucht habe. Ironischerweise ist diese Frage jetzt die erste Übereinstimmung für 'C# robots.txt' :-) Ich werde sehen, ob ich daraus extrahieren kann, was ich brauche. danke –

+0

ich hoffe du steckst jetzt nicht in einer endlosen schleife ;-) Lustig, sie zeigen sogar genau den Google Teil meiner Antwort als Vorschautext. Ich habe nicht realisiert, dass Google mittlerweile auch für Nicht-Nachrichtenseiten so schnell geworden ist, sehr interessant. – realMarkusSchmidt

+0

Bin ich in die Schleife? :) – Velcro

1

ein bisschen Selbst zu überprüfen, aber da ich einen ähnlichen Parser benötigt und nicht alles, was ich war zufrieden mit finden konnte, habe ich meine eigenen:

http://nrobots.codeplex.com/

würde ich jedes Feedback lieben

Verwandte Themen