2008-09-08 11 views
3

Ich hatte die Idee einer Suchmaschine, die Web-Artikel wie andere Suchmaschinen jetzt indexieren würde, aber nur den Titel, die URL und einen Hash der Inhalte der Datei speichern würde.Suche nach Hash?

Auf diese Weise wäre es leicht, Artikel im Internet zu finden, wenn Sie sie bereits hatten und nicht wussten, woher sie kamen oder alle Orte, an denen etwas erschien, wissen wollten.

Nützlicher für nicht textuelle Elemente wie Bilder, ausführbare Dateien und Archive.

Ich fragte mich, ob es schon etwas ähnliches gibt?

Antwort

4

Auschecken the wikipedia page on locality sensitive hashing. Es gibt auch a good page hosted by a research on MIT.

Im Allgemeinen sind mehrere Varianten verfügbar: Hashes für Strings (wie simhash), Mengen oder 0/1 Features (wie min-wise hashes) und für echte Vektoren.

Der Haupttrick für numerische Hashes ist im Grunde dimension reduction, so weit. Bei Strings besteht die Idee darin, eine Darstellung zu finden, die bei kleinen Änderungen robust ist.

Ich mache auch ein wenig Forschung in diesem Bereich, obwohl ich denke, Stackoverflow könnte nicht der richtige Ort für die entstehende Arbeit sein.

0

Es ist keine schlechte Idee. Manchmal stolpere ich über eine Datei, die versucht herauszufinden, woher sie kommt. Aber wie willst du die Quellen des Gegenstands verfolgen? Inhalt kann mit verschiedenen Mitteln erhalten werden - Web-Browser, Download-Manager, einfach durch Kopieren von Netzwerkfreigaben.

0

Die Frage scheint sich auf exakte Übereinstimmungshashes zu konzentrieren, die wir besser verstehen als Nearest-Neighbor-Ansätze und die sich in der Tat lohnen, besonders wenn Leute Tags und andere Metadaten auf diese Weise teilen können. Wie @rjmunro feststellt, ist Hash-basiertes Suchen eine populäre Idee in der P2P-Welt, und Bitzi hat ziemlich genau das getan, obwohl sie heruntergefahren sind und ihre Bitpedia (Digital Media Encyclopedia) dort nicht mehr gehostet wird, obwohl zumindest einige davon noch auf Archive.org verfügbar sind.

Bitzi produzierte auch Software wie Bitcollider (SourceForge.net), und die Magnet URI scheme, die die Angabe einer Datei durch Hash erlaubt und somit eine inhaltsbasierte Kennung ist. Verschiedene Anwendungen unterstützen die Suche in verschiedenen Datenbanken über Magnet-URIs, wie auf dieser Wikipedia-Seite beschrieben.

Die gleiche Idee ist beliebt in der Passwort-Cracking-Szene - siehe z.B. findmyhash - Python script to crack hashes using online services usw.

einen Schritt weiter gehen, ich denke, es wäre toll, wenn es Datenbanken und Online-Repositories begnügen von Hash-Identifizierung und Tags und andere Metadaten über den Inhalt aus verschiedenen Perspektiven bieten.Dann könnte ich meine Musiksammlung in ihrem ursprünglichen Zustand belassen (kein verschwendeter Backup-Speicherplatz und -Zeit), sie aber trotzdem selbst markieren und über externe Tag-Datenbanken weitere Metadaten hinzufügen. Wenn meine Anwendungen wüssten, wie man die Tags ergreift, scheint es viel besser zu sein als das derzeitige System, wo wir große Dateien modifizieren und kopieren, nur um Tags von z. mein Desktop zu meinem Handy.

Eine ähnliche Idee finden Sie unter Metadata Independent Hashing for Media Identification & P2P Transfer Optimisation (pdf).