2016-07-01 3 views
1

Ich bin zurzeit ein Amateur in tiefen Lernen und wurde auf dieser Seite über word2vector Lesen https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-3-more-fun-with-word-vectorswas Wortvektordimension

Für entweder CBOW oder skipgram Modell, ich kann sehen, dass die Dimension der Wortvektoren 300 und die Wortschatzgröße ist 15000. Was ich in dem früheren Beitrag gelesen habe, ist, dass wir die Wörter in Vektoren schwer kodieren können. Also denke ich, dass die Wortvektordimension gleich der Wortschatzgröße sein sollte oder um die Frage auf eine andere Art zu stellen, was ist diese Wortdimension und wie man sie visualisiert. Wie nimmst du diese Dimension?

+0

Können Sie bitte diesen Satz erklären: "Wir heißen Code das Wortvektoren"? – sel

+0

Bearbeitet meine Frage – Nipun

Antwort

0

Eigentlich entspricht die Wortvektorabmessung nicht der Wortschatzgröße. Was Word2Vec macht, ist die Zuordnung der Wörter zu ihrer Repräsentation in einem Vektorraum und Sie können diesen Raum jeder gewünschten Dimension machen:: Jedes Wort wird durch einen Punkt in diesem Raum repräsentiert und Wortvektordimensionen sind die Koordinaten dieses Wortes in dieser Raum. Auch Wörter, die dazu neigen, im selben Kontext zu erscheinen, erscheinen in diesem Raum nebeneinander.

this helps

+0

https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-3-more-fun-with-word-vectors Bitte werfen Sie einen Blick auf diesen Link und lassen Sie mich wissen, was "Wenn wir die Mindestanzahl an Wörtern auf 40 setzen, haben wir ein Gesamtvokabular von 16.492 Wörtern mit je 300 Funktionen" bedeutet mit 300 Funktionen. Was sind Merkmale der Wörter? – Nipun

3

"Wort Vector Dimension" ist die Dimension des Vektors, die Sie mit dem Training Dokument trainiert haben. Technisch können Sie jede mögliche Dimension, wie 10, 100, 300, sogar 1000 wählen. Industrienorm ist 300-500, weil wir mit verschiedenen Maßen experimentiert haben (300, 400, 500, ... 1000, etc.) aber nicht bemerkt haben die signifikante Leistungsverbesserung nach 300-400. (Dies hängt auch von Ihren Trainingsdaten ab.) Wie es sich anhört, bedeutet mehr Dimension mehr Rechenaufwand. Wenn wir die Dimension jedoch zu niedrig festlegen, ist nicht genügend Vektorraum vorhanden, um die Informationen zu erfassen, die im gesamten Schulungsdokument enthalten sind.

Wie visualisiert man es?

Sie können nicht einfach 300-dimensionalen Vektor visualisieren und wahrscheinlich 300-d-Vektoren zu visualisieren ist nicht zu nützlich für Sie. Was wir tun können, ist diese Vektoren in den 2-d-Raum zu projizieren, den Raum, mit dem wir am vertrautesten sind und den wir leicht verstehen können.

Ihre letzte Aussage Also ich denke, das Wort Vektor Dimension sollte gleich dem Wortschatz sein Größe ist falsch! Vocab Größe ist 1 Milliarde! Word-Vektor-Dimension (meist 300-500. Sie wollen nicht 1-Milliarden-dimensionale Vektoren trainieren, oder?) Ist die Größe des Vektors, den Sie im Voraus entscheiden, um die Daten zu trainieren. Dieses Video wird Ihnen helfen, die wichtigen Wortvektorkonzepte zu verstehen: AI with the Best