2016-07-25 3 views

Antwort

1

Grundsätzlich, wenn ein Begriff T sehr häufig ist (zB Stoppwörter, "und", "der", usw.) und in vielen Ihrer Dokumente zu finden sind, sind Sie wahrscheinlich nicht daran interessiert, alle Dokumente zu erhalten zurück und Sie möchten wahrscheinlich nicht, dass der Begriff T die Bewertung zu sehr beeinflusst.

Das ist die Aufgabe des IDF-Teils in der TF/IDF-Formel, was bedeutet, dass seltenere Begriffe einen höheren Beitrag zur Punktzahl liefern, weshalb der Begriff TF des Terms T in einem gegebenen Dokument mit dem IDF multipliziert wird dieser Begriff für den gesamten Dokumentenkorpus. Je mehr Dokumente einen gegebenen Begriff enthalten, desto weniger relevant/diskriminierend sollte dieser Begriff sein.

Ein Begriff "Elefant", der einige Male in einem Dokument D erscheint, aber nicht notwendigerweise in allen anderen Dokumenten, trägt dazu bei, Dokument D eine höhere Punktzahl zu geben als für alle anderen Dokumente.

Ein Begriff "und", der in fast allen Dokumenten erscheint, wird nicht viel zur Punktzahl beitragen, weil die IDF vernachlässigbar sein wird.

+0

danke .. alles gelöscht. –

+0

Super, froh, dass es geholfen hat. – Val

Verwandte Themen