2017-01-25 1 views
0

The online NER demo macht einen guten Job mit Währungen wie $ und Begriffe wie Million. Zum Beispiel: BSES hat mehr als 7200 Millionen US-Dollar in die Modernisierung und Erweiterung der Infrastruktur investiert. Dasselbe gilt für die in Indien verwendeten Begriffe schlecht: BSES hat über Rs 7200 crores in die Modernisierung und Erweiterung der Infrastruktur investiert.Stanford NLP + Zug für neue Währung wie Rupie

Antwort

0

Die einfachste Sache könnte sein, einen regelbasierten Ansatz zu verwenden. Hier

ist ein Beispiel Regel, die ich in währungs rules.txt setzen

Rs [0-9]+ crores  MONEY MISC 1 

Hier ist der Befehl, den ich auf dem Beispielsatz lautete:

java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,regexner -regexner.mapping currency-rules.txt -file sample-sentence.txt -outputFormat text 

Es konnte richtig die Phrase identifizieren "Rs 7200 crores" als GELD.

Auch wenn Sie keine Währungssymbole zu handhaben wollen und sie normalisiert haben, können Sie in dieser Klasse suchen möchten:

https://github.com/stanfordnlp/CoreNLP/blob/master/src/edu/stanford/nlp/ie/QuantifiableEntityNormalizer.java

Wenn Sie irgendwelche Vorschläge für indische Währung Hinzufügen ich sie hinzufügen können, um diese Klasse.

Verwandte Themen