Ich verwende Word2Vec mit einem Dataset von ungefähr 11.000.000 Tokens, die beide Wortähnlichkeit (als Teil der Synonym-Extraktion für eine Downstream-Aufgabe) tun wollen, aber ich habe kein gutes Gefühl dafür, wie viele Dimensionen ich sollte mit Word2Vec verwendet werden. Hat jemand eine gute Heuristik für den zu berücksichtigenden Bereich von Dimensionen basierend auf der Anzahl der Token/Sätze?Word2Vec: Anzahl der Dimensionen
Antwort
Das typische Intervall liegt zwischen 100-300. Ich würde sagen, dass Sie mindestens 50D benötigen, um die niedrigste Genauigkeit zu erreichen. Wenn Sie eine geringere Anzahl von Dimensionen auswählen, werden Sie Eigenschaften von hochdimensionalen Räumen verlieren. Wenn Trainingszeit für Ihre Anwendung keine große Sache ist, würde ich bei 200D-Dimensionen bleiben, da es nette Funktionen gibt. Extreme Genauigkeit kann mit 300D erreicht werden. Nach 300D werden Wortfunktionen nicht dramatisch verbessert und das Training wird extrem langsam.
Ich kenne keine theoretische Erklärung und strenge Grenzen der Dimensionsauswahl in hochdimensionalen Räumen (und möglicherweise gibt es keine anwendungsunabhängige Erklärung dafür), aber ich würde Sie auf Pennington et. al verweisen, Abbildung2a wo X-Achse Vektordimension und zeigt Die y-Achse zeigt die erhaltene Genauigkeit. Dies sollte das obige Argument empirisch rechtfertigen.
Der Verweis "GloVe: Globale Vektoren forWord Representation" ist derzeit nicht zugänglich in der Verbindung, aber es ist sicher irgendwo anders im Web erreichbar. – arivero
Dies scheint die Version des Datensatzes zu sein: http://www.aclweb.org/anthology/D14-1162 Und hier ist eine Scholar Suche nach allen Versionen des Papiers: https://scholar.google.com/scholar ? cluster = 15824805022753088965 & hl = de & as_sdt = 0,47 –
gibt es irgendwelche 200d trainierte word2vec, ich sehe wir haben handschuh mit 200d, aber können wir handschuh mit word2vec verwenden? – bicepjai
Ich denke, dass die Anzahl der Dimensionen von Word2vec von Ihrer Anwendung abhängt. Der empirischste Wert ist etwa 100. Dann kann es gut funktionieren.
- 1. gensim word2vec: Finden Sie die Anzahl der Wörter im Vokabular
- 2. Large Array mit benutzerdefinierten Anzahl von Dimensionen
- 3. Falsche Anzahl von Dimensionen auf model.fit
- 4. R - frbs Paketfehler - falsche Anzahl von Dimensionen
- 5. Limit der Abbildung Dimensionen
- 6. Ermitteln der CCLabelTTF-Dimensionen
- 7. word2vec: Reihenfolge der Sätze im Trainingskorpus
- 8. Java: Array-Dimensionen automatisch basierend auf der Anzahl der Spalten in der CSV-Datei festlegen
- 9. deeplearning4j word2vec Ausgang wordvectors
- 10. deeplearning4j: online Word2Vec Training
- 11. Kmeans fit_predict mit word2vec
- 12. Fehler in Pars [, nm]: falsche Anzahl von Dimensionen
- 13. Kostenfunktion für word2vec
- 14. "Falsche Anzahl von Dimensionen" beim Exportieren von TXT-Datei
- 15. Funken Word2vec Vektormathematik
- 16. Word2Vec mit chinesisch
- 17. Hinzufügen von Arrays mit unterschiedlicher Anzahl von Dimensionen
- 18. Maximale Anzahl von Dimensionen in einem Java-Array
- 19. gensim word2vec gibt inkonsistente Ergebnisse
- 20. word2vec, Summe oder durchschnittliche Worteinbettungen?
- 21. Datenformat in Tensorflow für Word2Vec
- 22. Wie mischen Worte in word2vec
- 23. numpy Dimensionen
- 24. Ist es möglich, die Anzahl der Dimensionen in einem Array zu zählen?
- 25. Python/Keras - Falsche Anzahl der Dimensionen: erwartet 3, bekam 2 mit Form (119, 80)
- 26. Matlab Hilfe bei der Suche nach Dimensionen
- 27. Maximale Dimensionen der Zeichenfläche in JavaFX
- 28. Größe der Dimensionen im Array ermitteln
- 29. Was bedeutet der Vektor eines Wortes in Word2vec?
- 30. CSS padding und Dimensionen
Sie können mit Dimensionen im Bereich von 100 wie 100,200,300 versuchen. Dies hat bewiesen, dass es gute Ergebnisse liefert. Siehe http://arxiv.org/pdf/1301.3781.pdf –
Ich frage mich, ob die Ergebnisse und Grenzen der Kugelpackung hier relevant sind https://gilkalai.wordpress.com/2016/03/23/a-breaktow-by- maryna-viazovska-führen-zu-den-lang-erwarteten-Lösungen-für-das-dichteste-Packing-Problem-in-Dimensionen-8-und-24/ – arivero