2009-04-28 6 views
1

Ich arbeite daran, Intelligenz für die Weitergabe von Links zu entwickeln, und da ich mit vielen kurzen URL-Diensten arbeiten muss, bei denen eine umgekehrte Suche von einer genauen URL-Adresse erforderlich ist, muss ich mehrere ungefähre Versionen derselben URLs auflösen können URLRufen Sie eine Liste der beliebtesten GET-Param-Varianten für eine bestimmte URL ab?

Ein Beispiel wäre eine URL wie http://www.example.com?ref=affil&hl=en&ct=0

Natürlich sein, GET params unter bestimmten Umständen Wechsel zu einer ganz anderen Seite verweisen kann, vor allem, wenn die GET params in Frage zu einem Profil oder Content-ID verweisen.

Aber eine schnelle Analyse der Seite würde schnell feststellen, wie ähnlich die Seiten zueinander waren. Mit etwas maschinellem Lernen könnte schnell klar werden, welche GET-Parameter den Inhalt der für eine bestimmte Site zurückgegebenen Seiten nicht beeinflussen.

Ich nehme an, ein Dienst eine URL zu senden und eine Liste von sehr ähnlichen URLs nur von Google oder Yahoo (oder Twitter) angeboten werden, aber sie scheinen diese Funktion nicht zu bieten, und Ich habe keine anderen Dienste gefunden, die das tun.

Wenn Sie irgendwelche Dienste kennen, die Gruppen von fast identischen URLs in der oben genannten Weise zusammenfassen, lassen Sie es mich bitte wissen.

Mein Kopfgeld ist eine Umarmung.

+2

Meine rasende Homophobie hindert mich daran, diese Frage zu beantworten;) –

+0

Twitter kann nicht einmal ihre Eingaben bereinigen ... glaubst du wirklich, dass sie sowas machen könnten? – Louis

+1

Ich mochte die "Umarmung" Kopfgeld, obwohl :-) – scraimer

Antwort

0

Jede URL ist eine "Adresse" für einen Speicherort von Daten im Internet. Der "Host" -Teil der URL (in Ihrem Beispiel "www.example.com") ist ein Web-Server oder eine Gruppe von Web-Servern irgendwo auf der Welt. Wenn wir uns eine URL als "Adresse" vorstellen, könnte der Host ein "Land" sein.

Das Land selbst könnte jedes eingehende Poststück verfolgen. Manche tun, manche nicht. Ich spreche von Web-Servern! Natürlich merken echte Länder nicht jede Post, die Sie bekommen! :-)

Aber auch wenn dieses "Land" jedes Stück Post verfolgt - ich bezweifle wirklich, dass sie einen Mechanismus haben, um diese Liste an Sie zu senden.

Für Organisationen, die sich selbst ernähren könnten, denke ich, die beste Wette wäre Google, aber selbst dort ist die Situation eher düster. Sie sehen, weil Google nicht jeder Webserver ("Land") in der Welt ist, können sie nicht jede URL kennen, die auf diesen Webserver zugreift.

Aber sie können das Gegenteil tun. Da sie jede Seite indizieren können, auf die sie stoßen, können sie eine ziemlich gute Vorstellung von jeder URL bekommen, die in öffentlichen HTML-Seiten im Web erscheint. Dies schließt natürlich keine URLs ein, die Personen in Chats, SMS oder E-Mails versenden. Dennoch können sie eine ziemlich gute Vorstellung davon bekommen, welche URLs existieren.

Ich denke, was ich versuche zu sagen ist, dass was Sie suchen nicht wirklich existiert. Die einzige Möglichkeit, alle URLs zu erhalten, die für den Zugriff auf eine einzelne Website verwendet werden, ist Besitzer dieser Website.

Sorry, Kumpel.

0

Es klingt wie Sie müssen eine Art von diskreten Ähnlichkeit Rang zwischen den Seiten erstellen. Dies könnte getan werden, indem die Anzahl von ähnlichen Wörtern zwischen zwei Seiten gefunden wird und der Wert auf einen beschränkten Bereich normalisiert wird, und dann bestimmte Teile des Bereichs auf verschiedene Ähnlichkeitsrangfolgen abgebildet werden.

Sie müssten auch für jedes Paar wissen, dass Sie vergleichen, welche GET-Parameter sie gemeinsam hatten oder wie nahe sie waren. Diese Information würde zu den Attributen werden, die jede Ihrer Instanzen definieren (neben dem oben genannten Rang gespeichert). Nachdem Sie einige hundert Vergleichspaare gesammelt haben, könnten Sie vielleicht eine Feature-Subset-Auswahl treffen, um die GET-Parameter zu identifizieren, die am besten angeben, wie ähnlich zwei Seiten sind.

Natürlich könnte dies am Ende nichts nützliches finden, da dieser Datensatz sehr viel Rauschen enthalten dürfte.

Wenn Sie an diesem Ansatz interessiert sind, sollten Sie sich mit Infogain beschäftigen und die Auswahl von Teilmengen im Allgemeinen vornehmen. Dies ist ein Link zu meinen Vorlesungsnotizen der Professoren, die sich als nützlich erweisen können. http://stuff.ttoy.net/cs591o/FSS.html

Verwandte Themen