2010-12-20 22 views
2

Kann jemand einen automatischen Tagging-Algorithmus (Blogpost/Dokument) erstellen? Jedes Beispiel wird geschätzt.Automatischer Tagging-Algorithmus

+3

"Tagging" wird im Allgemeinen als folksonomic Klassifikation gedacht; per definitionem kann das nicht automatisch gemacht werden, da es sich auf die "Weisheit der Massen" verlässt (und hoffentlich die Dummheit von Mobs vermeidet), um die richtigen Tags zu wählen. IMO, wenn es von einem Algorithmus getan wird, ist es nicht "Tagging", obwohl andere Formen der Schlüsselwortwahl automatisiert werden können. – geoffspear

Antwort

0

Ich stimme dem zu, was Woble sagt. Die naive Lösung besteht jedoch darin, einfach einen Algorithmus zu schreiben, der die lexikalischen Ähnlichkeiten und Unterschiede des gegebenen Blogposts im Vergleich zu einem Korpus von Text berechnet. Dieser lexikalische Unterschied wird Ihnen Wörter geben, die im Blogpost häufiger vorkommen als im Korpus. Aus diesen Worten können Sie auf ein Tag schließen.

Aber ich empfehle dringend dagegen. Das automatische Tagging scheint in der Praxis nicht zu funktionieren. Nur auslagern an die Benutzer oder Dienste, die Tagging-Arbeit wie Mechanical Turk

0

Späte Antwort, sondern hatte auch diese Aufgabe für einen Kurs - so im Falle jemand anderes sucht diese zu erkunden, hier ist ein Ausgangspunkt:

Wenn Wenn Sie nach einfachen Lösungen suchen oder vielleicht als Übung zum maschinellen Lernen, können Sie das automatische Tagging als Textkategorisierungs-/Klassifizierungsaufgabe anzeigen. Naive Bayes Klassifikatoren sind einfache Werkzeuge, um herauszufinden, und es gibt viele Pseudocode und Material, um diese zu verstehen. TFIDF (term frequency-inverse document frequency) Metrik ist etwas anderes, das Sie untersuchen können. Obwohl es häufig mit Informationsabruf verbunden ist, kann es für dieses Problem in Verbindung mit anderen maschinellen Lerntechniken eingesetzt werden.

Anstatt jedoch dem neuen Beispiel ein einzelnes Label basierend auf der Definition des NB-Klassifikators zuzuordnen, müssen Sie mehrere Labels festlegen. Sie können wahrscheinlich die Informationen zum gemeinsamen Auftreten des Tags aus dem Trainingssatz verwenden, um Ihnen dabei zu helfen.

Dies ist eine simple und naive Lösung und es gibt eine Menge Details über die Auswahl von Features (um unabhängige Parameter zu reduzieren, Informationsgewinn, etc.). Viele leicht zugängliche Papiere zu diesem Forschungsthema, um es auszuprobieren!

Verwandte Themen