2016-07-15 4 views
1

Ich habe die Möglichkeit untersucht, eine kontextbasierte Suche nach einem einzelnen Wort mit WordNet zu implementieren. Die Idee ist dies:Verbesserte kontextbasierte Suche

Der Benutzer sucht nach Viren, sollte es die Kontexte/Anwendungen des gesuchten Wortes, die in unserem Fall sind Gesundheit und Computing. Der Benutzer wählt nun den Kontext aus, der nun die Bedeutung basierend auf dem ausgewählten Kontext abruft. Ich habe über die Möglichkeit der Verwendung von WordNet geprüft, aber es scheint, WordNet hat diese Fähigkeit nicht. Ich habe auch auf Wortsinn-Disambiguierung geachtet, aber dann ist es für Satz kein Wort. Wie erreiche ich das? Gibt es ein Wörterbuch, das dies erreichen kann? Irgendeine Idee über andere Arbeit?

Antwort

0

Ich fand heraus, um zu versuchen, wie dies zu erreichen, habe ich dieses Projekt erweiterte wordnet Domain (Xwn) genannt http://adimen.si.ehu.es/web/XWND.

Laut den Autoren, "ist eine fortlaufende Arbeit mit dem Ziel, WordNet-Domains automatisch zu verbessern", ist Wordnet-Domains ein weiteres Projekt, das den gleichen Zweck wie XWN erfüllt, aber auf Wordnet 2.0-Wörterbuchdateien beschränkt. XWN funktioniert mit Wordnet 3.0 Ich habe es getestet, aber ich konnte die Kriterien für die Auswahl der passenden Domain für ein Wort nicht herausfinden. Ein weiteres Problem ist, dass das Laden der Domänen mit den Offsets im Speicher viel Zeit in Anspruch nimmt. Dies liegt daran, dass die gesamten Offsets in jeder Domäne etwa 19 Millionen betragen. Und auch XWN enthält etwa 180 Domains. Jede Domäne hat die gleichen Wörter in ihnen, aber für unterschiedliche Gewichte.

Zum Beispiel, ein Wort lassen sagen, dass Virus könnte ein Gewicht von 0,00007899 in Computer Science, und 0,08766 in der Biologie, und 7,9866 in der Akustik, und 4,97655 im Gesetz einfach so. Ich habe auch beobachtet, dass die Gewichte in aufsteigender Reihenfolge sind und die ersten paar Wörter in jeder Domäne eng mit dieser Domäne verbunden sind. So habe ich es aber weniger optimal genutzt, da ich die Kriterien für die Auswahl der Domains nicht berücksichtigt habe, sondern für alle Domains ausgewählt wurde und nur für die mit dem gesuchten Wort verwandten Domains eine Bedeutung erhält.

Ich hoffe, dass dies jemand hilft, und jemand die Kriterien, über die ich gesprochen habe. Aber für jetzt schlug ich vor, Wordnet Domain http://wndomains.fbk.eu in der gleichen Richtung zu verbessern, die die Autoren verwendeten, die ein Wort mit einer Domäne zusammenbringt.

1

Disambiguierung ist ein großes Berechnungsproblem. Wenn Sie etwas relativ Einfaches tun möchten, würde ich Sie auf BabelNet und Babelfy hinweisen.

Der erste ist ein großes enzyklopädisches Wörterbuch, der zweite ist ein Disambiguierungssystem, das vom BabelNet-Team entwickelt wurde.

Mit BabelNet haben Sie mehrere Metadaten über das Wort wie Kategorien und es hat auch eine Java API. Vielleicht kannst du etwas daraus machen.

Auch ich würde Ihnen empfehlen, mehrere Textanalyse-Software wie MeaningCloud

+0

Sie scheinen, als ob Sie ziemlich viel Wissen darüber haben. Kannst du bitte mehr ausarbeiten? Ich arbeite auch an einem ähnlichen Problem und möchte mehr wissen. – Ahmedov

+0

@Ahmedov Was genau möchten Sie wissen? Woran arbeitest du? – antorqs

+0

Ich arbeite an einem großen Korpus von Datensätzen. Grundsätzlich ist mein Problem, "Nadel im Heuhaufen" zu finden. Deshalb brauche ich einen guten Disambiguierungsalgorithmus sowie einige Synonymbefunde. – Ahmedov

Verwandte Themen