In Word2Vector werden die Worteinbettungen durch Co-Occurrence und Aktualisieren der Vektordimensionen gelernt, sodass Wörter, die im jeweils anderen Kontext vorkommen, näher zusammenkommen .Welchen Effekt hat das Hinzufügen neuer Wortvektoreinbettungen auf einen vorhandenen Einbettungsraum für neuronale Netze?
Meine Fragen sind:
1) Wenn Sie bereits ein vortrainiert Satz von Einbettungen haben, lassen Sie uns mit 40k Worten eine 100-dimensionalen Raum sagen, können Sie 10 zusätzliche Wörter auf diesem Einbettungsraum hinzufügen, ohne Veränderung die vorhandenen Worteinbettungen. Sie würden also nur die Dimensionen der neuen Wörter mit den vorhandenen Worteinbettungen aktualisieren. Ich denke an dieses Problem in Bezug auf den Algorithmus "Wort 2 Vektor", aber wenn Leute Einblicke haben, wie GLoVe Einbettungen in diesem Fall funktionieren, bin ich immer noch sehr interessiert.
2) Teil 2 der Frage ist; Können Sie dann die NEUEN Worteinbettungen in einem NN verwenden, das mit dem vorherigen Einbettungsset trainiert wurde und vernünftige Ergebnisse erwartet. Wenn ich zum Beispiel ein NN für die Stimmungsanalyse trainiert hätte und das Wort "nervös" vorher nicht im Vokabular gewesen wäre, wäre "nervös" korrekt als "negativ" klassifiziert worden.
Dies ist eine Frage darüber, wie empfindlich (oder robust) NN in Bezug auf die Einbettungen sind. Ich würde mich über jegliche Gedanken/Einsicht/Führung freuen.
Ich habe gehofft, dass das, was Sie gesagt haben, der allgemeine Konsens ist, bevor ich diese Idee weiter verfolgen werde. Ich denke, dass das, was Sie gesagt haben, dass das ursprüngliche Wortsatz benötigt wird, um die "verallgemeinerbaren Nachbarschaften der Bedeutung" für den Klassifikator abzudecken, einen großen Sinn ergibt. Ist das ein gebräuchlicher Ausdruck "verallgemeinerbare Nachbarschaften von Bedeutung"? Es macht Sinn, wenn ich darüber nachdenke. –
Ich denke nicht, dass es üblich ist, aber ich denke darüber nach. Bis zu einem gewissen Grad nutzt der Trainingsprozess den vollen Raum, um die interne Vorhersageaufgabe so gut wie möglich zu erreichen, aber innerhalb des Bedeutungsbereichs, den seine Trainingstexte bieten. Wenn man von Physiktexten "heiß" und "kalt" lernt, werden die Wörter und Richtungen für diesen Bereich getrennt sein ... aber wenn später emotional/fiktionale Texte in denselben verankerten Raum gezwungen werden, beziehen sich die neuen Wörter/Sinne auf "heiß" 'und' kalte 'Stimmungen mögen nicht so viel Freiheit haben, sich auf nützlich kontrastierende Weise zu positionieren. – gojomo