2014-10-26 23 views
7

Ich verwende Word2Vec mit einem Dataset von ungefähr 11.000.000 Tokens, die beide Wortähnlichkeit (als Teil der Synonym-Extraktion für eine Downstream-Aufgabe) tun wollen, aber ich habe kein gutes Gefühl dafür, wie viele Dimensionen ich sollte mit Word2Vec verwendet werden. Hat jemand eine gute Heuristik für den zu berücksichtigenden Bereich von Dimensionen basierend auf der Anzahl der Token/Sätze?Word2Vec: Anzahl der Dimensionen

+0

Sie können mit Dimensionen im Bereich von 100 wie 100,200,300 versuchen. Dies hat bewiesen, dass es gute Ergebnisse liefert. Siehe http://arxiv.org/pdf/1301.3781.pdf –

+0

Ich frage mich, ob die Ergebnisse und Grenzen der Kugelpackung hier relevant sind https://gilkalai.wordpress.com/2016/03/23/a-breaktow-by- maryna-viazovska-führen-zu-den-lang-erwarteten-Lösungen-für-das-dichteste-Packing-Problem-in-Dimensionen-8-und-24/ – arivero

Antwort

9

Das typische Intervall liegt zwischen 100-300. Ich würde sagen, dass Sie mindestens 50D benötigen, um die niedrigste Genauigkeit zu erreichen. Wenn Sie eine geringere Anzahl von Dimensionen auswählen, werden Sie Eigenschaften von hochdimensionalen Räumen verlieren. Wenn Trainingszeit für Ihre Anwendung keine große Sache ist, würde ich bei 200D-Dimensionen bleiben, da es nette Funktionen gibt. Extreme Genauigkeit kann mit 300D erreicht werden. Nach 300D werden Wortfunktionen nicht dramatisch verbessert und das Training wird extrem langsam.

Ich kenne keine theoretische Erklärung und strenge Grenzen der Dimensionsauswahl in hochdimensionalen Räumen (und möglicherweise gibt es keine anwendungsunabhängige Erklärung dafür), aber ich würde Sie auf Pennington et. al verweisen, Abbildung2a wo X-Achse Vektordimension und zeigt Die y-Achse zeigt die erhaltene Genauigkeit. Dies sollte das obige Argument empirisch rechtfertigen.

+1

Der Verweis "GloVe: Globale Vektoren forWord Representation" ist derzeit nicht zugänglich in der Verbindung, aber es ist sicher irgendwo anders im Web erreichbar. – arivero

+0

Dies scheint die Version des Datensatzes zu sein: http://www.aclweb.org/anthology/D14-1162 Und hier ist eine Scholar Suche nach allen Versionen des Papiers: https://scholar.google.com/scholar ? cluster = 15824805022753088965 & hl = de & as_sdt = 0,47 –

+0

gibt es irgendwelche 200d trainierte word2vec, ich sehe wir haben handschuh mit 200d, aber können wir handschuh mit word2vec verwenden? – bicepjai

0

Ich denke, dass die Anzahl der Dimensionen von Word2vec von Ihrer Anwendung abhängt. Der empirischste Wert ist etwa 100. Dann kann es gut funktionieren.

Verwandte Themen