Ich versuche derzeit eine Tagging-Engine in Java zu implementieren und suchte nach Lösungen, um Keywords/Tags aus Texten (Artikeln) zu extrahieren. Ich habe einige Lösungen für Stackoverflow gefunden, was darauf hindeutet, Pointwise Mutual Information zu verwenden.So extrahieren Sie Schlüsselwörter (Tags) aus dem Text
kippe ich pyton verwenden und NLTK so muss ich es selbst implementieren. Aber ich weiß nicht, wie ich die Wahrscheinlichkeiten berechnen soll. Die Gleichung sieht wie folgt aus:
PMI(term, doc) = log [ P(term, doc)/(P(term)*P(doc)) ]
Was ich möchte wissen, ist, wie P (Begriff, doc) zu berechnen
ich bereits eine lange Textkorpus und eine Sammlung von Artikeln. Die Artikel sind nicht Teil des Korpus. Der Korpus ist mit Lucene indiziert.
Bitte helfen Sie mir. Mit freundlichen Grüßen.
Haben Sie die Tags extrahieren möchten oder die Wahrscheinlichkeiten berechnen? Ihr Titel schlägt vor, Tags zu extrahieren, aber Ihre Frage besagt, dass Sie nicht wissen, wie Sie die Wahrscheinlichkeiten berechnen sollen - warum interessieren Sie sich für Wahrscheinlichkeiten? – Bohemian
ich möchte Tags extrahieren und daher muss ich P (Term, Doc) berechnen, aber ich weiß nicht, wie es geht – BauerMitFackel
Warum müssen Sie etwas berechnen? Bitte definieren Sie auch "Tags extrahieren". – Bohemian