2017-08-04 2 views
1

wordnet Ähnlichkeitsmaße Vergleich zu sehen, welche meiner corpus relevanteste/nützlich ist - kam in dieser Fehlermeldung, wenn LCH zu berechnen versucht -LCH Ähnlichkeit - Brauchen Sie dasselbe POS? Python

„Berechnung der LCH Ähnlichkeit erfordert Synset ('home'.n.01) und Synset ('chronological.a.01'), um die gleiche Wortart zu haben. "

Muss ich alle Wörter in meiner Liste auf den gleichen POS normalisieren, bevor ich lch versuche?

Als Referenz konnte ich wup_similarity erfolgreich ohne POS-Normalisierung berechnen. Die Liste der Wörter, die ich versuche, die Ähnlichkeit zu berechnen, wurde alle unter Verwendung von WordNetLemmatizer lemmatisiert.

Antwort

0

Sie können dies nicht durch Ändern der Wortart beheben, da nicht alle Wörter Teil der Sprache sein können. "chronologisch" kann beispielsweise kein Substantiv sein.

Ein Ansatz besteht darin, Ausnahmen wie diese abzufangen oder nach verschiedenen Teilen der Sprache zu suchen und eine Ähnlichkeit von Null zuzuweisen.

WordNet behandelt dies auch manchmal, indem es eine gemeinsame Wurzel über verschiedene Teile der Sprache simuliert, was wahrscheinlich der Grund dafür ist, dass einige Ihrer Ähnlichkeitsmaße funktionieren. Allerdings funktioniert die Art und Weise, is confusing funktioniert, so dass Sie wahrscheinlich nicht darauf verlassen sollten.

Wenn Sie Ähnlichkeit für beliebige Wörter wünschen, versuchen Sie Wordvec oder GloVe anstelle von WordNet zu verwenden.

+0

Werden beide auschecken, danke! – Ksofiac

Verwandte Themen