2008-10-09 20 views
25

Ich bin auf der Suche nach einer einfachen, aber "gut genug" benannten Entity Recognition Bibliothek (und Wörterbuch) für Java, ich bin auf der Suche nach E-Mails und Dokumente und extrahieren einige "grundlegende Informationen" wie: Namen , Orte, Adresse und DatenBenannte Entitätserkennungsbibliotheken für Java

Ich habe mich umgesehen, und die meisten scheint auf der schweren Seite und volle NLP Art von Projekten zu sein.

Irgendwelche Empfehlungen?

Antwort

1

BTW, ich lief vor kurzem über OpenCalais, die die Funktionalität zu haben scheint, die ich suchte.

+2

ist nicht Open Source. – wolfgang

22

Vielleicht möchten Sie einen der my earlier answers zu einem ähnlichen Problem betrachten.

Abgesehen davon hängen die meisten leichteren NER-Systeme stark von der verwendeten Domäne ab. Sie finden zum Beispiel eine Vielzahl von Instrumenten und Artikeln über biomedizinische NER-Systeme. Zusätzlich zu meinem vorherigen Post (die bereits meine wichtigste Empfehlung enthält, wenn Sie tun NER wollen), sind hier einige weitere Werkzeuge, die Sie vielleicht in aussehen soll:

  • Die Stanford CER-NER
  • Die Postech Biomedical NER System wenn Sie interessiert sind in diesem speziellen Bereich
  • OpenCalais scheint ein kommerzielles System zu sein. Es gibt UIMA wrappers for OpenCalais, aber sie scheinen veraltet zu sein. Es gibt auch einen wörterbuchbasierten Context-Mapper-Annotator für UIMA, der Ihnen helfen kann. Beachten Sie, dass UIMA einen erheblichen Overhead in der Lernkurve impliziert ;-)
  • OpenNLP haben auch ein NER-Tool.
  • Balie tut auch NER, unter anderem.
  • ABNER tut NER, aber wieder ist es auf den biomedizinischen Bereich konzentriert.
  • Die JULIE Lab Tools von der Universität Jena, Deutschland tun auch NER. Sie haben eigenständige Versionen und UIMA-Analyse-Engines.

Eine zusätzliche Bemerkung: Sie werden nicht ohne Tokenization auf dem Eingang kommen. Die Tokenisierung der natürlichen Sprache ist etwas nicht-trivial, deshalb schlage ich vor, dass Sie eine Toolbox verwenden, die beides für Sie tut.

+0

GENIA Tagger/Tokenizer in tokenizer gebaut und hat den Stanford-Parser funktioniert! – nflacco

0

Sie können auch Alchemy API ausprobieren. Es ähnelt Open Calais.