Ich baue das TensorFlow-Modell für die NLP-Aufgabe und verwende den vortrainierten Glove 300d-Wortvektor/Einbettungsdatensatz.Initialisierung von Vokabeln für Vokabeln (OOV)
Offensichtlich können einige Token nicht als Einbettungen aufgelöst werden, weil sie nicht in den Trainingsdatensatz für das Wortvektoreinbettungsmodell, z.B. seltene Namen.
Ich kann diese Token durch Vektoren von 0s ersetzen, aber anstatt diese Informationen auf den Boden fallen zu lassen, bevorzuge ich es irgendwie zu kodieren und zu meinen Trainingsdaten hinzuzufügen.
Say, ich habe 'Raijin' Wort, das nicht als Einbettung Vektor gelöst werden kann, was wäre der beste Weg, um es konsequent mit Glove Einbettung Datensatz zu kodieren? Was ist der beste Ansatz, um es in 300d Vektor zu konvertieren?
Vielen Dank.