Es gibt verschiedene Modelle für Ähnlichkeitsmeßeinrichtung, wie word2vec oder Handschuh, aber Sie scheinen mehr nach einem Korpus suchen, der soziale, informelle Sätze wie "lol" enthält.
Aber ich werde word2vec bringen, weil es führt zu dem, was ich denke, eine Antwort auf Ihre Frage.
Das grundlegende Konzept von word2vec (und anderen Worteinbettungsmodellen wie Handschuh) ist die Darstellung von Wörtern in einem Vektorraum, der Beziehungen zwischen Wörtern enthält. Dies eignet sich sehr gut zum Messen der Ähnlichkeit, da Vektoren eine Menge etablierter Mathematik haben, von der man ausgehen kann. Sie können mehr über die technischen Details von Word2vec im Original lesen aber ich mag this blog post weil es gut geschrieben und prägnant ist.
Wiederum, da Word2vec nur ein Modell ist, müssen Sie es mit dem richtigen Trainingssatz paaren, um die Art von Umfang zu erhalten, die Sie suchen.Es gibt einige vortrainierte Modelle, die im Web herumschwimmen, wie zum Beispiel this bunch. Das Trainingssatz ist wirklich, was Ihnen erlaubt, eine größere Vielfalt von Begriffen abzufragen, als das Modell.
Sie können diese vortrainierten Modelle natürlich verwenden, wenn sie soziale Phrasen wie die gesuchten haben. Wenn Sie jedoch kein Modell sehen, das auf einem geeigneten Korpus trainiert wurde, können Sie ein Modell problemlos selbst trainieren. Ich empfehle Twitter oder Wikipedia für Korpora (Trainingssätze) und die Implementierung von word2vec in gensim
als ein Worteinbettungsmodell.
Welche Art Ähnlichkeit versuchen Sie zu berechnen? Semantische Ähnlichkeit? Sie werden es nicht ohne eine Art Datenbank von Wortbedeutungen (wie WordNet) berechnen können. – BrenBarn
Was meinst du? Ich benutze bereits WordNet, die Ähnlichkeit wird mit Wu-Palmer Similarity berechnet. Bitte sehen Sie sich den Code genau an. –
Werfen Sie einen Blick auf die STS-Aufgabe: http://alt.qcri.org/semeval2016/task1/ Und einen schamlosen Stecker: https://github.com/alvations/stasis – alvas