2013-01-15 17 views
5

Ich versuche derzeit eine Tagging-Engine in Java zu implementieren und suchte nach Lösungen, um Keywords/Tags aus Texten (Artikeln) zu extrahieren. Ich habe einige Lösungen für Stackoverflow gefunden, was darauf hindeutet, Pointwise Mutual Information zu verwenden.So extrahieren Sie Schlüsselwörter (Tags) aus dem Text

Solution 1

Solution 2

kippe ich pyton verwenden und NLTK so muss ich es selbst implementieren. Aber ich weiß nicht, wie ich die Wahrscheinlichkeiten berechnen soll. Die Gleichung sieht wie folgt aus:

PMI(term, doc) = log [ P(term, doc)/(P(term)*P(doc)) ] 

Was ich möchte wissen, ist, wie P (Begriff, doc) zu berechnen

ich bereits eine lange Textkorpus und eine Sammlung von Artikeln. Die Artikel sind nicht Teil des Korpus. Der Korpus ist mit Lucene indiziert.

Bitte helfen Sie mir. Mit freundlichen Grüßen.

+0

Haben Sie die Tags extrahieren möchten oder die Wahrscheinlichkeiten berechnen? Ihr Titel schlägt vor, Tags zu extrahieren, aber Ihre Frage besagt, dass Sie nicht wissen, wie Sie die Wahrscheinlichkeiten berechnen sollen - warum interessieren Sie sich für Wahrscheinlichkeiten? – Bohemian

+0

ich möchte Tags extrahieren und daher muss ich P (Term, Doc) berechnen, aber ich weiß nicht, wie es geht – BauerMitFackel

+0

Warum müssen Sie etwas berechnen? Bitte definieren Sie auch "Tags extrahieren". – Bohemian

Antwort

0

Es gibt viele Algorithmen, dies zu tun:

Open-Source-Werkzeuge:

kea (http://www.nzdl.org/Kea/) überwacht Ansatz Trainingsdaten verwendet und kontrolliertes Vokabular

maui Indexer (http://code.google.com/p/maui-indexer/) wird im Grunde Erweiterung von Kea, die die Möglichkeit bieten, Enzyklopädien für die Extraktion von Schlüsselwörtern zu verwenden.

carrot2 (http://project.carrot2.org/) unbeaufsichtigter Ansatz zur Extraktion der Schlüsselphrase. Es unterstützt eine Vielzahl von Variationen des Eingabe-, Ausgabeformats und der Parameter für die Extraktion von Schlüsselausdrücken.

Hammer Thema Modellierungsmodul (http://mallet.cs.umass.edu/topics.php)

Stanford Thema Modellierungswerkzeug (http://nlp.stanford.edu/software/tmt/tmt-0.3/)

Mahout Clustering-Algorithmen (http://mahout.apache.org/)

Gewerbe api:

Alchemy API (http://www.alchemyapi.com/api/keyword-extraction/)

Zemanta API (http://www.zemanta.com/developer/)

yahoo Termextraktion api (http://developer.yahoo.com/contentanalysis/)

+1

diese Antwort wird von kopiert https: //www.quora.com/Was-sind-gut-Werkzeuge-zu-extrahieren-Schlüssel-Wörter-und-oder-Themen-Tags-from-a-random-Absatz-Text/Antwort/Vineet-Yadav? Srid = kKqE – MFARID

Verwandte Themen