1
von LSH verwendete Hashing

enter image description hereVerwirrung in

M Matrix ist die Matrix-Signaturen, die über Minhashing der tatsächlichen Daten erzeugt wird, hat Dokumente als Spalten und Wörter als Zeilen. Eine Spalte repräsentiert also ein Dokument.

Jetzt heißt es, dass jeder Streifen (b in der Anzahl, r in Länge) seine Spalten hashed, so dass eine Spalte in einen Eimer fällt. Wenn zwei Spalten für> = 1 Streifen in den gleichen Bucket fallen, sind sie potentiell ähnlich.

Also das bedeutet, dass ich b Hashtabellen erstellen und b unabhängige Hash-Funktionen finden sollte? Oder nur eine ist genug und jeder Streifen sendet seine Spalten zu den gleichen Sammlungen von Eimern (aber würde dies nicht die Streifen aufheben)?

Wäre in diesem Fall ein Wörterbuch für eine Hashtabelle ausreichend? *?

* Is a Python dictionary an example of a hash table?

Antwort

0

Ich glaube, ich es herausgefunden, für zukünftige Leser veröffentlichen.

Ich werde ein Wörterbuch verwenden, da die Folien erwähnt, dass es in Ordnung ist, die gleiche Hash-Funktion für jeden Streifen (dictionaries do that) zu verwenden.

Jeder Eimer ist ein Schlüssel für unser Wörterbuch.

Beim Einfügen wird ein Dokument (d. H. Eine Spalte, die zu einem Streifen gehört) durch eine Hash-Funktion übergeben (die we erstellt) und das Ergebnis sollte ein Schlüssel sein. Auf diese Weise wird unser Wörterbuch bevölkert sein.