2017-07-02 3 views
0

Ich möchte NER (CRF-Klassifikator) verwenden, um Autornamen in einer Abfrage zu identifizieren. Ich trainierte NER nach der in nlp.stanford.edu angegebenen Methode mit der Trainingsdatei: training-data.col. Und getestet mit der Datei: testing-data.tsv.Schulung eines NER-Klassifikators zum Erkennen von Autornamen

Der NER markiert jeden Eingang als Autor, auch die Daten, die in den Trainingsdaten als Nicht-Autor markiert sind. Kann mir jemand sagen, warum NER die Nicht-Autoren in Trainingsdaten als Autoren markiert und wie man NER trainiert, um Autoren zu identifizieren (ich habe die Liste der Autornamen zu trainieren).

Alle Vorschläge für Referenzmaterial auf NER außer nlp.stanford.edu Website wird hilfreich sein.

Antwort

1

Das ist ein sehr kleines Stück Trainingsdaten, also bin ich nicht überrascht, dass es die falschen Schlussfolgerungen gemacht hat. Da das einzige Beispiel, das es von "Atal" gesehen hat, ist Author, es kennzeichnet "Atal" als solches.

Aber mehr, wenn Sie zwischen Menschen, die am Anfang als Author und Menschen im Text als 0 aufgeführt unterschieden unterscheiden, wird Stanford NER nicht tun. Stanford NER soll long distance inferences about the named-entity tags of tokens in natural language text machen. Mit anderen Worten, es macht das Gegenteil von dem, was Sie versuchen zu tun.

Sie könnten dies wahrscheinlich mit einer einfachen Mustererkennung tun --- wenn Ihre Dokumente in ähnlicher Weise formatiert sind, würde ich mit den Autoren beginnen, diese zu nutzen. Sie können den NER verwenden, um die Autoren als PERSON zu kennzeichnen, und dieses Tag dann als Feature in Ihrem eigenen Tagging verwenden.

Verwandte Themen