2013-10-11 6 views
5

Mit einem Klassifizierungsalgorythm (zum Beispiel naive bayes oder SVM) und StringToWordVector, wäre es möglich, TF/IDF zu verwenden und Terme Häufigkeit in der gesamten aktuellen Klasse statt nur zu zählen in einem einzigen Dokument suchen?Kann TF/IDF Klassen im Konto verwenden

Lassen Sie mich erklären, ich möchte, dass die Berechnung den Wörtern, die sehr häufig für eine gegebene Klasse (nicht nur für ein gegebenes Dokument) sind, hohe Punktzahl gibt, aber nicht sehr häufig im ganzen Korpus.

Ist es möglich, aus der Box oder benötigt dies einige zusätzliche Entwicklungen?

Thanks :)

Antwort

2

Ich denke, dass Sie sich hier verwirren --- was Sie fragen, ist im Wesentlichen das Feature Gewicht für Dokumente dieser Klasse. Dies soll der Lernalgorithmus optimieren. Sorgen Sie sich einfach um eine nützliche Darstellung von Dokumenten, die notwendigerweise invariant sein müssen für die Klasse, zu der sie gehören (da Sie nicht wissen, was die Klasse für ungesehene Testdokumente ist).

5

ich die Berechnung möchte hohe Punktzahl zu Worten geben, die für eine gegebene Klasse sehr häufig sind (nicht nur für ein bestimmtes Dokument), sondern in dem ganzen Korpus nicht sehr häufig.

Sie scheinen beaufsichtigte Begriffsgewichtung zu wollen. Ich kenne keine Standard-Implementierung davon, aber es gibt eine Vielzahl von literature about it. Z.B. Das Gewichtungsschema tf-χ² ersetzt IDF durch das Ergebnis eines independence²-Unabhängigkeitstests, so dass Begriffe, die statistisch von bestimmten Klassen abhängen, verstärkt werden, und es gibt mehrere andere.

Tf-idf selbst ist von Natur aus unbeaufsichtigt.

0

Ein geändertes IDF kann Ihnen in einigen Szenen helfen.

können Sie die idf verwenden wie folgt definiert:
log (1 + p (Begriff in dieser Klasse)/p (Begriff in anderen Klasse))

Nachteile: Jede Klasse eine andere idf hat, kann das sein interpretiert als jeder Begriff in einer anderen Klasse hat verschiedene Beiträge zur Unterscheidung der Kategorie.

Anwendung: Durch Hinzufügen der IDF in Native Bayes, bekomme ich eine Verbesserung der Abfrage Keyword-Klassifizierung. Und es funktioniert gut beim Extrahieren von Keywords.

Verwandte Themen