Bedeutung der inverse Dokumentenhäufigkeit bei der Berechnung der Relevanz der elastischen Suche

Ich habe in der Dokumentation gelesen, wie der Relevanzwert berechnet wird. Aber ich kann immer noch nicht verstehen, warum sie die inverse Dokumentenhäufigkeit berücksichtigt haben. Wie wirkt sich die inverse Dokumentenhäufigkeit auf die Relevanz eines Dokuments aus?Bedeutung der inverse Dokumentenhäufigkeit bei der Berechnung der Relevanz der elastischen Suche

Quelle

2016-07-25 Mukul Chakravarty

Grundsätzlich, wenn ein Begriff T sehr häufig ist (zB Stoppwörter, "und", "der", usw.) und in vielen Ihrer Dokumente zu finden sind, sind Sie wahrscheinlich nicht daran interessiert, alle Dokumente zu erhalten zurück und Sie möchten wahrscheinlich nicht, dass der Begriff T die Bewertung zu sehr beeinflusst.

Das ist die Aufgabe des IDF-Teils in der TF/IDF-Formel, was bedeutet, dass seltenere Begriffe einen höheren Beitrag zur Punktzahl liefern, weshalb der Begriff TF des Terms T in einem gegebenen Dokument mit dem IDF multipliziert wird dieser Begriff für den gesamten Dokumentenkorpus. Je mehr Dokumente einen gegebenen Begriff enthalten, desto weniger relevant/diskriminierend sollte dieser Begriff sein.

Ein Begriff "Elefant", der einige Male in einem Dokument D erscheint, aber nicht notwendigerweise in allen anderen Dokumenten, trägt dazu bei, Dokument D eine höhere Punktzahl zu geben als für alle anderen Dokumente.

Ein Begriff "und", der in fast allen Dokumenten erscheint, wird nicht viel zur Punktzahl beitragen, weil die IDF vernachlässigbar sein wird.

Quelle

2016-07-25 09:25:25 Val

danke .. alles gelöscht. –

Super, froh, dass es geholfen hat. – Val

Bedeutung der inverse Dokumentenhäufigkeit bei der Berechnung der Relevanz der elastischen Suche

Antwort

Verwandte Themen