2016-08-01 7 views
0

Ich habe kürzlich das </s> Wort/Zeichen in einem Vokabular gefunden, das von word2vec als ein separates Wort erstellt wurde.Unbekanntes Wort/Zeichen in txt-Datei von word2vec

Obwohl ich versucht habe, das Web nach diesem Zeichen zu durchsuchen, kann ich diesen Charakter in den Suchmaschinen nicht wirklich angeben.

Also weiß jemand, was dieser Charakter ist?

Antwort

1

Wenn Sie an der Linie sehen 82 von source code von word2vec,

if (ch == '\n') { 
    strcpy(word, (char *)"</s>"); 
    return; 
} 

</s> ist einfach ein Zeichen, die von Mikolov et al. um das Ende der Linie (oder genauer \n) zu bezeichnen. Ich glaube nicht, dass es eine spezielle HTML/Latex-Referenz hat. Es erscheint auch nicht unter ASCII chart.

+0

Es wird wahrscheinlich nur verwendet, um Kollisionen mit Wörtern in dem Text zu vermeiden, in dem Sie 'word2vec' trainieren. – kampta