Ich versuche, ein Wörterbuch von Wörtern mit Tf-IDF zu bauen. Es macht jedoch intuitiv keinen Sinn.Intuition hinter Tf-IDF für Termextraktion
Wenn der Teil des Inverse Document Frequency (IDF) von Tf-Idf die Relevanz eines Terms in Bezug auf den gesamten Korpus berechnet, dann bedeutet dies, dass einige der wichtigen Wörter eine geringere Relevanz haben könnten.
Wenn wir uns einen Korpus von juristischen Dokumenten ansehen, kann in jedem Dokument ein Begriff wie "Licence" oder "Legal" vorkommen. Aufgrund von IDF wird die Punktzahl für diese Begriffe sehr niedrig sein. Diese Begriffe sollten jedoch intuitiv eine höhere Punktzahl haben, da dies eindeutig rechtliche Begriffe sind.
Ist tf-idf ein schlechter Ansatz für die Erstellung eines Wörterverzeichnisses?
Ich dachte eher an das Erstellen eines Wörterbuchs für alle rechtlichen Begriffe mit einem Korpus von Dokumenten als ein Trainingssatz. Aber Sie haben recht, es ist hilfreicher, wenn ich diese Begriffe schon habe und dann die juristischen Dokumente von nicht legalen Dokumenten trennen. – jCoder
Eine Möglichkeit TFxIDF könnte nützlich sein, um * die rechtlichen Begriffe * zu isolieren. Erstellen Sie eine separate Basis von nicht-legalen Dokumenten (Top-Artikel von Wikipedia, geprüft, um rechtliche Themen zu entfernen?) Und erstellen Sie daraus Ihre IDF-Werte. Wenden Sie das nun in einer TFxIDF-Berechnung Ihrer Sammlung von Rechtsdokumenten an. Ausschließlich Rechtsbegriffe haben eine hohe IDF und heben sich dadurch ab, während allgemeine Wörter, die auf der ganzen Linie üblich sind, eine niedrige IDF haben und dazu neigen, auf den Boden zu sinken, selbst wenn die TF hoch ist. – tripleee
Nit-Auswahl: Es ist TF/DF oder TFxIDF, wobei IDF als 1/DF definiert ist. – tripleee