Verwirrung in

2016-05-07 13 views 1 likes

von LSH verwendete Hashing

M Matrix ist die Matrix-Signaturen, die über Minhashing der tatsächlichen Daten erzeugt wird, hat Dokumente als Spalten und Wörter als Zeilen. Eine Spalte repräsentiert also ein Dokument.

Jetzt heißt es, dass jeder Streifen (b in der Anzahl, r in Länge) seine Spalten hashed, so dass eine Spalte in einen Eimer fällt. Wenn zwei Spalten für> = 1 Streifen in den gleichen Bucket fallen, sind sie potentiell ähnlich.

Also das bedeutet, dass ich b Hashtabellen erstellen und b unabhängige Hash-Funktionen finden sollte? Oder nur eine ist genug und jeder Streifen sendet seine Spalten zu den gleichen Sammlungen von Eimern (aber würde dies nicht die Streifen aufheben)?

Wäre in diesem Fall ein Wörterbuch für eine Hashtabelle ausreichend? ^*?

* _{Is a Python dictionary an example of a hash table?}

Quelle

2016-05-07 gsamaras

Antwort

Ich glaube, ich es herausgefunden, für zukünftige Leser veröffentlichen.

Ich werde ein Wörterbuch verwenden, da die Folien erwähnt, dass es in Ordnung ist, die gleiche Hash-Funktion für jeden Streifen (dictionaries do that) zu verwenden.

Jeder Eimer ist ein Schlüssel für unser Wörterbuch.

Beim Einfügen wird ein Dokument (d. H. Eine Spalte, die zu einem Streifen gehört) durch eine Hash-Funktion übergeben (die we erstellt) und das Ergebnis sollte ein Schlüssel sein. Auf diese Weise wird unser Wörterbuch bevölkert sein.

Quelle

2016-05-09 14:15:59 gsamaras

Verwandte Themen

1. Verwirrung in Datagridview Combobox
2. Funktionsausdruck in JavaScript Verwirrung
3. Bitverschiebung Verwirrung in C#
4. Algorithmus Verwirrung in Codewars
5. Verwirrung in JSON-Struktur
6. Freunde Verwirrung
7. Stylesheet Verwirrung
8. Kreuzkorrelationskoeffizient Verwirrung
9. Scanf Verwirrung
10. COBOL Verwirrung
11. QThread Verwirrung
12. Hexdump Verwirrung
13. Verwirrung C
14. NSTimer Verwirrung
15. dynamic_cast Verwirrung
16. Bitmap.Lockbits Verwirrung
17. DateTime Verwirrung
18. WM_KEYDOWN Verwirrung
19. Drucken Verwirrung
20. Javascript Verwirrung
21. ObsoleteAttribute Verwirrung
22. Calendar.HOUR_OF_DAY Verwirrung
23. Verwirrung in Nullwerte Abrufen Joins
24. Verwirrung über flatMapLatest in RxSwift
25. Verwirrung über Zeichenzeiger in C
26. Verwirrung in Verständnis C++ Standards
27. Django Auth Verwirrung in Vorlagen
28. Verwirrung in #import vs @class
29. Array Referenz Verwirrung in PHP
30. Verwirrung über Arten in FORTRAN