2014-05-16 9 views
7

Ich versuche zum ersten Mal benannte Entity-Erkennung. Ich suche nach Features, die englische Namen herausgreifen. Ich verwende die Methoden, die in der coursera nlp course (Woche drei) und der nltk book beschrieben sind. Mit anderen Worten: Ich definiere Merkmale, identifiziere Merkmale von Wörtern und führe diese Wörter/Features dann durch einen Klassifizierer, den ich auf beschrifteten Daten trainiere.Welche Funktionen nutzen NLP-Praktiker, um englische Namen auszusuchen?

Welche Funktionen werden verwendet, um englische Namen auszusuchen?

Ich kann mir vorstellen, dass Sie nach zwei Großbuchstaben in einer Reihe suchen würden, oder einem Hauptwort und dann einem Anfangs- und dann einem Hauptwort. (ex John Smith oder James P. Smith).

Aber welche anderen Funktionen werden für NER verwendet?

Antwort

7

einige gemeinsame Merkmale:

  • Wortlisten für allgemeine Namen (John, Adam, usw.)
  • Gehäuse
  • Symbol oder numerische Zeichen enthält (Namen der Regel nicht)
  • Person Präfixe (Herr, Frau, etc ...)
  • Person Postfixes (Jr., Sr., etc ...)
  • Ein-Buchstaben-Abkürzung (dh (J.) Smith).
  • Analyse der umgebenden Wörter (möglicherweise finden Sie einige Wörter haben eine hohe Wahrscheinlichkeit der Nähe von Namen).
  • Named Entities zuvor erkannt (oft ist es einfach, NE in einigen Teilen des Korpus auf Kontexts zu identifizieren, aber sehr schwer, in anderen Teilen. Wenn vorher identifizierten, ein ausgezeichneter Hinweis auf NER ist)

Abhängig davon, mit welcher Sprache Sie arbeiten, kann es auch mehr sprachspezifische Funktionen geben. Offen gesagt können Sie eine Fülle von Informationen mit einer einfachen Google-Abfrage abrufen, ich bin mir wirklich nicht sicher, warum Sie nicht dort gedreht haben. Einige Ausgangspunkte jedoch:

4

Ich hatte etwas ähnliches wieder in der Schule mit maschinellem Lernen durchgeführt. Ich nehme an, dass Sie einen überwachten Algorithmus verwenden werden und Sie werden jedes einzelne Wort unabhängig und nicht Wörter in Kombination klassifizieren. In diesem Fall würde ich einige Funktionen für das Wort selbst auswählen, wie die, die Sie erwähnt haben (wenn das Wort mit einem Großbuchstaben beginnt, wenn das Wort eine Abkürzung ist), würde ich einige weitere Funktionen hinzufügen, wie zum Beispiel das vorherige oder das nächste Wort Beginnen Sie mit einem Großbuchstaben, oder wenn es sich um Abkürzungen handelt. Auf diese Weise können Sie einen Kontext hinzufügen und die Probleme lösen, die mit Ihrer grundlegenden Unabhängigkeitsannahme verbunden sind.

Wenn Sie einen Blick haben möchten here. Im Abschnitt Machine Learning finden Sie weitere Informationen und Beispiele (das Problem ist etwas anders, aber die Methode sollte ähnlich sein).

Unabhängig von den von Ihnen gewählten Funktionen ist es wichtig, dass Sie eine Maßzahl verwenden, um ihre Relevanz zu bewerten und sie möglicherweise auf die Nützlichen zu reduzieren, um eine Überanpassung zu vermeiden.Eine der Maßnahmen, die Sie verwenden können, um sie zu bewerten, ist die gain ratio, aber es gibt viele mehr. Here können Sie einige grundlegende Informationen über die Merkmalsextraktion finden.

Hoffe es hilft!

Verwandte Themen