2016-12-15 2 views
0

Ich muss jetzt Informationsgewinn für Feature-Auswahl lernen, Aber ich habe kein klares Verständnis darüber. Ich bin ein Neuling und ich bin verwirrt darüber.Wie Informationsgewinn in Textklassifizierung funktioniert

Wie verwende ich IG in Feature-Auswahl (manuelle Berechnung)?

Ich habe diesen Hinweis nur .. das jemand kann mir helfen, wie die formula

enter image description here

dann ist dies das Beispiel example

enter image description here

+0

bitte erklären, was Sie tun und nicht verstehen (die Formel? Der Zweck der Informationen erhalten?, Wie es zu codieren Was ist eine Wahrscheinlichkeit?) –

+0

Ich hoffe, meine Erklärung wird Ihnen helfen. –

Antwort

0

Wie zu verwenden, um Informationsgewinn in der Merkmalauswahl verwenden?

Informationsgewinn (InfoGain(t)) misst die Anzahl der Bits an Informationen für die Vorhersage einer Klasse (c), erhalten durch das Vorhandensein oder Fehlen eines Begriffs (t) in einem Dokument zu kennen.

Kurz, der Informationsgewinn ist ein Maß für die Verringerung der Entropie der Klassenvariablen, nachdem der Wert für das Merkmal beobachtet wurde. Mit anderen Worten, der Informationsgewinn für die Klassifizierung ist ein Maß dafür, wie häufig ein Merkmal in einer bestimmten Klasse ist, verglichen damit, wie es in allen anderen Klassen üblich ist.

In der Textklassifikation bedeutet Merkmal die Begriffe, die in Dokumenten vorkommen (a.k.a Korpus). Betrachten Sie zwei Begriffe im Korpus - term1 und term2. Wenn term1 die Entropie der Klassenvariablen um einen größeren Wert als term2 reduziert, ist term1 nützlicher als term2 für die Dokumentklassifizierung in diesem Beispiel.

Beispiel im Zusammenhang mit der Stimmungs Klassifizierung

Ein Wort, das und nur selten in negativen Kritiken enthält hohe Informationen in erster Linie in positiven Filmkritiken auftritt. Zum Beispiel ist das Vorhandensein des Wortes "großartig" in einer Filmkritik ein starker Hinweis darauf, dass die Rezension positiv ist. Das macht "großartig" zu einem hoch informativen Wort.

Compute Entropie und Informationsgewinn in Python

Verwandte Themen