Ich möchte ~ 100.000 kurze Strings durch etwas wie q-Gramm Abstand oder einfache "Bag Abstand" oder vielleicht Levenshtein Abstand in Python Cluster. Ich plante, eine Entfernungsmatrix auszufüllen (100.000 wähle 2 Vergleiche) und mache dann ein hierarchisches Clustering mit pyCluster. Aber ich stoße in einige Speicherprobleme, bevor ich überhaupt vom Boden abhebe. Zum Beispiel ist die Distanzmatrix zu groß für numpy.Clustering ~ 100.000 kurze Strings in Python
aa = numpy.zeros((100000, 100000))
ValueError: array is too big.
Scheint dies eine vernünftige Sache zu tun? Oder bin ich zu Gedächtnisproblemen in dieser Aufgabe verdammt? Danke für Ihre Hilfe.
10 Milliarden ist eine große Zahl. – nmichaels
Ich denke an eine Annäherung an dieses lustige Problem, aber ich vermisse einige Informationen. Bitte erläutern Sie etwas genauer, was genau Sie erreichen möchten, warum und welche möglichen Annahmen/Einschränkungen. Hier sind zwei besondere Fragen. 1) Können Sie Replikatfolgen in Ihrer Analyse haben? 2) Brauchen Sie wirklich alle 2-mal-2-Distanzen oder sagen Sie, dass nur ein Teil der kleineren Distanzen für eine gegebene Saite ausreichen würde? Prost. – Morlock