Ich habe ein Word2Vec-Modell, das auf einem riesigen Korpus trainiert wurde. Bei der Verwendung dieses Modells für die Neuronale Netzwerkanwendung stieß ich auf eine Reihe von Wörtern, die nicht im Vokabular standen. Jetzt muss ich Worteinbettungen für diese "Out of Vocabulary" Wörter finden. Also habe ich gegoogelt und herausgefunden, dass Facebook kürzlich eine FastText-Bibliothek dafür veröffentlicht hat. Nun meine Frage ist, wie kann ich mein vorhandenes Word2vec-Modell oder Keyedvectors in FastText-Modell konvertieren?Wie konvertiert man das Gensim-Word2Vec-Modell in das FastText-Modell?
Antwort
FastText ist in der Lage, Vektoren für Teilwortfragmente zu erstellen, indem diese Fragmente im ursprünglichen Training vom ursprünglichen Korpus eingeschlossen werden. Wenn dann ein Wort außerhalb des Wortschatzes ("OOV") gefunden wird, konstruiert es einen Vektor für diese Wörter unter Verwendung von Fragmenten, die es erkennt. Bei Sprachen mit wiederkehrenden Wortstamm-/Präfix-/Suffixmustern führt dies zu Vektoren, die besser sind als zufällige Vermutungen für OOV-Wörter.
Der FastText-Prozess jedoch nicht extrahiert diese Unterwort Vektoren aus endgültigen Vollwort Vektoren. Daher gibt es keine einfache Möglichkeit, Vollwortvektoren in ein FastText-Modell zu verwandeln, das auch Unterwortvektoren enthält.
Es könnte einen praktikablen Weg geben, den gleichen Effekt zu approximieren, zum Beispiel, indem alle bekannten Wörter mit dem gleichen Teilwortfragment genommen werden und ein allgemeiner Mittelwert/Vektorkomponente extrahiert wird, die dem Teilwort zugewiesen werden soll. Oder das Modellieren von OOV-Wörtern als ein Durchschnitt von Worten im Vokabular, die eine kurze Editierentfernung von dem OOV-Wort sind. Aber diese Techniken wären nicht ganz FastText, nur vage analog dazu, und wie gut sie funktionieren oder mit Tweaking arbeiten könnten, wäre eine experimentelle Frage. Es geht also nicht darum, eine Standardbibliothek zu ergattern.
Es gibt ein paar Forschungsberichte mit anderen OOV-Bootstrapping-Ideen, die in this blog post by Sebastien Ruder erwähnt werden.
Wenn Sie die FastText OOV-Funktionalität benötigen, wäre der am besten geeignete Ansatz, FastText-Vektoren von Grund auf auf dem gleichen Korpus zu trainieren, wie es für Ihre herkömmlichen Vollwortvektoren verwendet wurde.
- 1. Wie konvertiert man das Objekt in titlecase
- 2. Wie konvertiert man das Datumsformat in vb.net?
- 3. Wie konvertiert man das Datumsformat in C#?
- 4. Wie konvertiert man das Datumsformat in Golang?
- 5. Wie konvertiert man das Diagramm in PDF?
- 6. Wie konvertiert man das zu ARC
- 7. Wie konvertiert man das Ergebnis einer Aufgabe?
- 8. Wie konvertiert man das smalldatime GMT Format?
- 9. Wie konvertiert man String in das Gebietsschema in Java
- 10. Wie konvertiert man Integer in das Datumsformat in r?
- 11. Wie konvertiert man Timedelta, das in Tagen in String ist?
- 12. Wie konvertiert man einen String in das Datumsformat in Python?
- 13. Wie konvertiert man Zeichenfolge in das Datumsformat in Java?
- 14. Wie konvertiert man das Bildformat in ARG1555 in QT?
- 15. Wie konvertiert man das Datumsformat in einer Razor-Ansicht?
- 16. Wie konvertiert man das Byte [] in float [] von AudioRecord?
- 17. Wie konvertiert man das Format json in react JS?
- 18. Wie konvertiert man das Sonderzeichen 'β' in seinen Unicode
- 19. Wie konvertiert man das Datum in ein Word-Format?
- 20. Wie konvertiert man TimeStamp in das passende Datumsformat?
- 21. Wie konvertiert man das Observable von rxJava2 in Completable?
- 22. Wie konvertiert man Plist-Daten in das JSON-Format?
- 23. Wie konvertiert man das String-Datum in dateTime?
- 24. Wie konvertiert man das ISO8601-Format in Millisekunden?
- 25. Wie konvertiert man das Datum von der Eingabe in Millisekunden
- 26. Wie konvertiert man die json-Ausgabe in das Zeilenformat
- 27. Wie konvertiert man das .vol Dateiformat in Dicom?
- 28. Wie konvertiert man das MySQL-Abfrageergebnis in ein JSON-Objekt?
- 29. Wie konvertiert man assoziative Arrays in das angegebene Format?
- 30. Wie konvertiert man das benutzerdefinierte Datetime-Format in Timestamp?