Ich arbeite daran, Intelligenz für die Weitergabe von Links zu entwickeln, und da ich mit vielen kurzen URL-Diensten arbeiten muss, bei denen eine umgekehrte Suche von einer genauen URL-Adresse erforderlich ist, muss ich mehrere ungefähre Versionen derselben URLs auflösen können URLRufen Sie eine Liste der beliebtesten GET-Param-Varianten für eine bestimmte URL ab?
Ein Beispiel wäre eine URL wie http://www.example.com?ref=affil&hl=en&ct=0
Natürlich sein, GET params unter bestimmten Umständen Wechsel zu einer ganz anderen Seite verweisen kann, vor allem, wenn die GET params in Frage zu einem Profil oder Content-ID verweisen.
Aber eine schnelle Analyse der Seite würde schnell feststellen, wie ähnlich die Seiten zueinander waren. Mit etwas maschinellem Lernen könnte schnell klar werden, welche GET-Parameter den Inhalt der für eine bestimmte Site zurückgegebenen Seiten nicht beeinflussen.
Ich nehme an, ein Dienst eine URL zu senden und eine Liste von sehr ähnlichen URLs nur von Google oder Yahoo (oder Twitter) angeboten werden, aber sie scheinen diese Funktion nicht zu bieten, und Ich habe keine anderen Dienste gefunden, die das tun.
Wenn Sie irgendwelche Dienste kennen, die Gruppen von fast identischen URLs in der oben genannten Weise zusammenfassen, lassen Sie es mich bitte wissen.
Mein Kopfgeld ist eine Umarmung.
Meine rasende Homophobie hindert mich daran, diese Frage zu beantworten;) –
Twitter kann nicht einmal ihre Eingaben bereinigen ... glaubst du wirklich, dass sie sowas machen könnten? – Louis
Ich mochte die "Umarmung" Kopfgeld, obwohl :-) – scraimer