2017-10-24 1 views
0

Ich möchte Word-Einbettungen für Dokumente mit GloVe erstellen. Ich weiß, wie man Vektoreinbettungen für einzelne Wörter (Unigramme) wie folgt erhält (für ihr Beispieltextdokument).N-Gramm in Glove

$ git clone http://github.com/stanfordnlp/glove 
$ cd glove && make 
$ ./demo.sh 

Jetzt möchte ich Vektoreinbettungen für Bigramme erhalten. Beispielsweise;

  1. "New York" -> statt "Neu" und "york"
  2. "Maschinelles Lernen" -> anstelle von "Maschine" und "Lernen"

Ist es möglich, in Glove machen? Wenn ja, wie?

+0

Verwenden Sie die * Quelle *. –

+0

Beachten Sie, dass Einbettungen für Wortkombinationen, die von Einbettungen für einzelne Wörter ausgehen, definitiv nicht-trivial und ein fortlaufendes Forschungsthema sind. – gented

Antwort

0

Ich glaube nicht, dass sie Bigramm-Vektoren zur Verfügung haben, aber Sie könnten sie selbst durch Vorverarbeitung eines Korpus produzieren. Zum Beispiel, wenn ein Dokument in Ihrem Korpus sieht wie folgt aus:

GloVe is love 

Sie es wie folgt formatieren:

START_GloVe GloVe_is is_love love_END 

Und eine Reihe von Einbettungen auf diesem Korpus wie gewohnt trainieren. Sie könnten auch Word2vec ansehen, wie in this post, die ähnlich ist.

Verwandte Themen