"Wort Vector Dimension" ist die Dimension des Vektors, die Sie mit dem Training Dokument trainiert haben. Technisch können Sie jede mögliche Dimension, wie 10, 100, 300, sogar 1000 wählen. Industrienorm ist 300-500, weil wir mit verschiedenen Maßen experimentiert haben (300, 400, 500, ... 1000, etc.) aber nicht bemerkt haben die signifikante Leistungsverbesserung nach 300-400. (Dies hängt auch von Ihren Trainingsdaten ab.) Wie es sich anhört, bedeutet mehr Dimension mehr Rechenaufwand. Wenn wir die Dimension jedoch zu niedrig festlegen, ist nicht genügend Vektorraum vorhanden, um die Informationen zu erfassen, die im gesamten Schulungsdokument enthalten sind.
Wie visualisiert man es?
Sie können nicht einfach 300-dimensionalen Vektor visualisieren und wahrscheinlich 300-d-Vektoren zu visualisieren ist nicht zu nützlich für Sie. Was wir tun können, ist diese Vektoren in den 2-d-Raum zu projizieren, den Raum, mit dem wir am vertrautesten sind und den wir leicht verstehen können.
Ihre letzte Aussage Also ich denke, das Wort Vektor Dimension sollte gleich dem Wortschatz sein Größe ist falsch! Vocab Größe ist 1 Milliarde! Word-Vektor-Dimension (meist 300-500. Sie wollen nicht 1-Milliarden-dimensionale Vektoren trainieren, oder?) Ist die Größe des Vektors, den Sie im Voraus entscheiden, um die Daten zu trainieren. Dieses Video wird Ihnen helfen, die wichtigen Wortvektorkonzepte zu verstehen: AI with the Best
Können Sie bitte diesen Satz erklären: "Wir heißen Code das Wortvektoren"? – sel
Bearbeitet meine Frage – Nipun