Ich möchte Top 20 ähnliche Artikel für jeden von N Elemente im Dataset berechnen. Jeder Artikel wird unter Verwendung der Funktionen von M Dimensionen dargestellt. Die Datengröße ist daher N_items X M_features.Warum dauert NearestNeighbors (SKlearn) länger, wenn n_neighbors weniger als die Gesamtzahl der Elemente hat?
Wenn ich n_neighbors
nicht angeben (Standardwert ist 5), dauert kneighbors
Funktion viel Zeit. Aber wenn ich n_neighbors = N_items
angeben, gibt es Ergebnisse fast sofort.
d. H. NN_object = NearestNeighbors()
braucht viel Zeit zu finden kneighbors
aber NN_object = NearestNeighbors(n_neighbors=N_items)
gibt Ergebnisse ziemlich schnell.
Kann jemand erklären, was genau hinter der Szene passiert?
PS: N_items
in meinem Fall ist ~ 50K und M_features
~ 10K ist.
Warte was? 'len (features)' ist gleich was genau *? – gsamaras
https://github.com/scikit-learn/scikit-learn/blob/14031f6/sklearn/neighbors/base.py#L269 Link für k-Nachbar-Funktion –