Gibt es irgendwelche Werkzeuge, um einen URL-Vergleich in Python zu machen?Kanonische URL in Python vergleichen?
Zum Beispiel, wenn ich http://google.com
und google.com/
habe, würde ich gerne wissen, dass sie wahrscheinlich die gleiche Website sein werden.
Wenn ich eine Regel manuell erstellen würde, könnte ich sie in Großbuchstaben schreiben, dann den http://
Teil entfernen und alles nach dem letzten alphanumerischen Zeichen löschen. Aber ich kann Fehler sehen, wie ich sicher bin Das kannst du auch.
Gibt es eine Bibliothek, die das tut? Wie würdest du es machen?
möglich Duplikat: http://stackoverflow.com/questions/682367/ –
Es wird nicht ohne X Ruf Post zwei _links_ lassen, aber Sie können so viele sind URLs wie Sie möchten, wenn Sie sie in Backquotes einfügen, damit der Parser sie nicht in Links konvertiert. Ich habe deine Frage bearbeitet, um zu zeigen, was ich denke, dass du meintest, aber wenn ich es falsch verstanden habe, bitte korrigiere es noch einmal, um mich zu korrigieren. –
Oh, und noch etwas: Was genau meinen Sie mit "unscharfen" Vergleich? Es ist leicht zu sagen, dass "http: // google.com" und "google.com /" dasselbe sind, weil sie die exakt gleiche kanonische Form haben, aber das ist kein unscharfer Vergleich. Ein echter Fuzzy-Vergleich würde URLs identifizieren, die ähnlich, aber nicht identisch sind, selbst nachdem Sie sie in ein Standardformular konvertiert haben. –