1

In word2vec paper verwenden sie lineare Aktivierungsfunktion. Ich kann Grund dafür sein, dass sie genügend Trainingsdaten für das Lernen von Worteinbettungen geben, so dass eine nichtlineare Aktivierungsfunktion nicht notwendig ist, bin ich richtig?Lineare Aktivierungsfunktion in Word zu Vektor

Auch wenn wir nichtlineare Aktivierungsfunktion in versteckter Ebene verwenden, dann denke ich, Ergebnisse sollten besser sein. Also, warum Google lineare Aktivierungsfunktion im Falle von Wort zu Vektor verwenden?

+0

Stellen Sie den Verweis der Literatur für eine schnellere Reaktion zur Verfügung. –

+0

Hier Link von Papier https://arxiv.org/pdf/1301.3781.pdf in Abschnitt 3 erwähnten sie über dort Modell. – Azad

Antwort

1

Es scheint mir, der größte Teil Ihrer Verwirrung kommt davon, dass ihr Modell ganz linear ist. Das stimmt nicht, denn am Ende gibt es immer eine Softmax-Ebene. Was linear ist, ist alles, was davor steht, und das unterscheidet sich von NNLM.

Denken Sie daran, dass die Grundidee aller Wortdarstellungsmethoden ist es, die Nachbar Wort vorherzusagen, dh die Gesamt bedingte Wahrscheinlichkeit des Kontextes durch das Zentrum Wort (oder umgekehrt) zu maximieren:

probability model

So Die Zielfunktion endet zwangsläufig mit einer finalen Softmax-Schicht (oder dergleichen). Ich empfehle Ihnen, lesen Sie this post für weitere Details, es ist ziemlich kurz und gut geschrieben.

Sie haben recht, je mehr Nichtlinearität ein neuronales Netzwerk hat, desto mehr Flexibilität erhält es und desto besser nähert es sich der Zielverteilung an. In diesem Fall sind sie der Ansicht, dass sich zusätzliche Flexibilität nicht auszahlt: Am Ende erhalten sie ein sehr gutes Ergebnis viel schneller, was es ermöglicht, diese Methode auf ein großes Korpus zu skalieren, was wiederum bessere Ergebnisse liefert.

Seitennotiz: lineare Regression erfordert überhaupt kein Training, um eine Lösung zu finden, es gibt eine enge Formel (es gibt jedoch technische Schwierigkeiten mit großen Matrizen).

Verwandte Themen