2016-02-17 2 views
5

Ich versuche, ein Wörterbuch von Wörtern mit Tf-IDF zu bauen. Es macht jedoch intuitiv keinen Sinn.Intuition hinter Tf-IDF für Termextraktion

Wenn der Teil des Inverse Document Frequency (IDF) von Tf-Idf die Relevanz eines Terms in Bezug auf den gesamten Korpus berechnet, dann bedeutet dies, dass einige der wichtigen Wörter eine geringere Relevanz haben könnten.

Wenn wir uns einen Korpus von juristischen Dokumenten ansehen, kann in jedem Dokument ein Begriff wie "Licence" oder "Legal" vorkommen. Aufgrund von IDF wird die Punktzahl für diese Begriffe sehr niedrig sein. Diese Begriffe sollten jedoch intuitiv eine höhere Punktzahl haben, da dies eindeutig rechtliche Begriffe sind.

Ist tf-idf ein schlechter Ansatz für die Erstellung eines Wörterverzeichnisses?

Antwort

4

Ja, diese Begriffe sind gesetzliche Bestimmungen. TF/IDF versucht jedoch nicht zu bewerten, ob sie für eine bestimmte Domäne relevant sind. Sie helfen Ihnen beim Zerlegen von Dokumenten aus dieser Domäne. Wenn in jedem Dokument ein Begriff wie legal vorkommt, würden sie einem Klassifizierer nicht dabei helfen, diese Dokumente zu unterscheiden. Wenn Sie jedoch Ihre juristischen Dokumente mit einem zufälligen Satz von Dokumenten mischen. Sie würden feststellen, dass sie plötzlich extrem relevant werden. Genau weil sie es Ihnen ermöglichen würden, juristische Dokumente und andere Dokumente auseinander zu halten.

In der Praxis werden sie typischerweise verwendet, um "Art-of" Stoppwörter zu entfernen. Z.B. The tritt in jedem Dokument auf und hat keine Bedeutung.

Ob TF/IDF gut zum Erstellen eines Wörterbuchs ist, hängt sehr davon ab, was Sie danach mit diesem Wörterbuch machen wollen.

+0

Ich dachte eher an das Erstellen eines Wörterbuchs für alle rechtlichen Begriffe mit einem Korpus von Dokumenten als ein Trainingssatz. Aber Sie haben recht, es ist hilfreicher, wenn ich diese Begriffe schon habe und dann die juristischen Dokumente von nicht legalen Dokumenten trennen. – jCoder

+1

Eine Möglichkeit TFxIDF könnte nützlich sein, um * die rechtlichen Begriffe * zu isolieren. Erstellen Sie eine separate Basis von nicht-legalen Dokumenten (Top-Artikel von Wikipedia, geprüft, um rechtliche Themen zu entfernen?) Und erstellen Sie daraus Ihre IDF-Werte. Wenden Sie das nun in einer TFxIDF-Berechnung Ihrer Sammlung von Rechtsdokumenten an. Ausschließlich Rechtsbegriffe haben eine hohe IDF und heben sich dadurch ab, während allgemeine Wörter, die auf der ganzen Linie üblich sind, eine niedrige IDF haben und dazu neigen, auf den Boden zu sinken, selbst wenn die TF hoch ist. – tripleee

+0

Nit-Auswahl: Es ist TF/DF oder TFxIDF, wobei IDF als 1/DF definiert ist. – tripleee

Verwandte Themen