M
Matrix ist die Matrix-Signaturen, die über Minhashing der tatsächlichen Daten erzeugt wird, hat Dokumente als Spalten und Wörter als Zeilen. Eine Spalte repräsentiert also ein Dokument.
Jetzt heißt es, dass jeder Streifen (b
in der Anzahl, r
in Länge) seine Spalten hashed, so dass eine Spalte in einen Eimer fällt. Wenn zwei Spalten für> = 1 Streifen in den gleichen Bucket fallen, sind sie potentiell ähnlich.
Also das bedeutet, dass ich b
Hashtabellen erstellen und b
unabhängige Hash-Funktionen finden sollte? Oder nur eine ist genug und jeder Streifen sendet seine Spalten zu den gleichen Sammlungen von Eimern (aber würde dies nicht die Streifen aufheben)?
Wäre in diesem Fall ein Wörterbuch für eine Hashtabelle ausreichend? *?
* Is a Python dictionary an example of a hash table?