2016-07-20 10 views
1
anzeigen

Für eine einfache Auswertung auf meinem Doc2Vec Trainingsmodell, muss ich 400-dimensionale Vektoren in 2-dimensionale transformieren und visualisieren die Dokumente als eine Menge von Knoten, wo der Abstand zwischen zwei beliebigen Knoten ist umgekehrt proportional zu ihrer Ähnlichkeit (Knoten, die sehr ähnlich sind, liegen nahe beieinander).Python - Doc2Vec mehrdimensionale Vektoren in 2D mit Sklearn MDS Klasse

Nach einigem Suchen habe ich MDS (multidimensional scaling) und sklearn MDS Bibliothek dafür gefunden.

Jetzt habe ich 2,2M Vektoren, die jeder von ihnen 400 Dimensionen hat und ich weiß nicht, wie sie an MSN-Funktion in der richtigen Syntax mit den niedrigsten Kosten sklearn übergeben können. Ich weiß, erstellen Ähnlichkeitsmatrix zwischen 2.2M Vektoren ist unmöglich.

Antwort

0

Für eine ziemlich ähnliche Aufgabe fand ich, dass die Reduzierung der Dimensionalität von Doc2Vec (von Standard 100 auf 30 in unserem Fall) absolut entscheidend für jede Art von räumlicher Rekonstruktion während der Arbeit an einem Macbook Pro selbst für einen relativ kleinen Datensatz war.

This war ein guter Ausgangspunkt (wenn auch mit tSNE Reduktion und veralteten Schnittstellen).