2013-12-22 1 views
11

Unter welchem ​​Fachbereich der natürlichen Sprachverarbeitung kommt die Abkürzungserkennung? Suche nach Quellen, um die Abkürzungserkennung zu lernen. Ich habe Semantik in Betracht gezogen, die grundsätzlich Synonyme erkennt. Also dachte ich, dass ich Semantik mit mehreren Wörtern machen könnte, die erkennen würde, dass "nlp" und "Verarbeitung natürlicher Sprache" ähnlich sind. aber ich habe keine Lösung gefunden, um Mehrwort-Semantik zu machen.Abkürzungserkennung

Hinweis: Ich weiß, es ist wirklich einfach, diese Frage zu bewerten, aber versuchen, mein Problem zu verstehen. Ich habe jetzt seit Monaten gekämpft und jede Hilfe ist sehr zu schätzen ...

Thankyou

+0

ich kein Experte auf dem Gebiet bin, aber das klingt wie ein besonders schwieriges Problem, da es auf beiden Kontexten stark abhängig ist und Semantik. – chrylis

+0

nein ich denke nicht, es ist wirklich schwierig, google, yahoo und bing tun es –

+0

Auf eine Schätzung? Künstliche Intelligenz. –

Antwort

4

Vielen Dank an alle, die mir geholfen haben. Ich glaube, ich habe selbst eine Antwort gefunden. Ich vertraue darauf, weil es aus einer Forschungsarbeit der Person stammt, die den Abkürzungs-Erweiterungsalgorithmus für Yahoo! und es zeigt auch Anzeichen für künstliche Intelligenz. Nochmals, danke an alle.

Um die andere im gleichen Boot wie ich, hier ist die Lösung:

SEO by the sea - How search engines might expand abbreviations in search queries

0

Sie mit einfachen regelbasierte Lösungen beginnen könnten, z.B. Suchen Sie nach Mustern wie "Natural Language Processing (NLP)". Ich erwarte, dass bei einem ausreichend großen Korpus dies einen langen Weg zurücklegen könnte. Und wenn Sie einen Speicherabzug von Wikipedia einschließen ...

+0

so kann ich Semantik nicht tun? –

+0

Vielleicht müssen Sie nicht. –

+0

Wie definieren Sie Abkürzungen? – alvas

6

(automatisch) Die Erkennung von Abkürzungen ist auch ein wesentliches Teilproblem und die Aufgabe von Satzsegmentierungs- und Tokenisierungsprozessen im Allgemeinen, d. H .: Satzende von Satzzeichen zu Abkürzungen hinzufügen. Statistische Methoden (NLP) wurden angewendet, um sie erfolgreich zu erkennen und zu extrahieren, meist in einer (halb-) überwachten Art und Weise. Z.B. das PUNKT-System, das zur Satzgrenzenerkennung entwickelt wurde, ist in der Lage, Abkürzungen mit hoher Genauigkeit, zu erkennen, basierend auf der Annahme, dass eine große Anzahl von Mehrdeutigkeiten bei der Bestimmung von Satzgrenzen nach der Identifizierung von Abkürzungen eliminiert werden kann (Kiss et al. 2006. Unsupervised Multilingual Sentence Boundary Detection).

Jetzt, bevor ich versuchte, das PUNKT-System oder ähnliches zu modifizieren, versuchte ich nur eine Richtung zu geben. NLP-basiertes Abk. Erkennung. Das oben erwähnte System wendet zum Beispiel Techniken an, um Kollokationsstärken zwischen Tokenpaaren zu messen, die zwei Wörter sein können, aber auch ein Wort und einige Interpunktionszeichen, die als Token behandelt werden. Es basiert alles auf Häufigkeiten und Wahrscheinlichkeiten, obwohl die Ergebnisse der traditionellen Kollokationsanalyse "semantische Forschung erlauben".

+0

Vielen Dank für Ihre Antwort @Nino es war großartig, aber ich habe auch eine Antwort gefunden. Ich würde das eher akzeptieren. Aber danke für deine Antwort, ich schätze deine Arbeit, die Stackoverflow neu ist. Ich habe Ihre Antwort geupdated, danke und willkommen zu stackoverflow. –

+0

Etwas verwandte Frage, die Kollokationen berührt: http://stackoverflow.com/q/20710593/583834 – arturomp