2010-01-29 11 views
12

Ich bin etwas verwirrt, was "Merkmalauswahl/Extraktor/Gewichte" bedeutet und den Unterschied zwischen ihnen. Wie lese ich die Literatur manchmal fühle ich mich verloren, als ich den Begriff verwendet, ganz locker, meine primäre Anliegen finden sind -Unterschied zwischen Merkmalsauswahl, Merkmalsextraktion, Merkmalsgewichte

  1. Wenn die Leute von Feature Frequenz, Feature Presence talk - ist es Merkmalsauswahl?

  2. Wenn Leute von Algorithmen wie Information Gain, Maximum Entropy sprechen - ist es immer Feature Auswahl.

  3. Wenn ich den Klassifikator trainiere - mit einem Feature-Set, das den Klassifizierer auffordert, die Position eines Wortes in einem Dokument als Beispiel zu notieren - würde man diese Featureauswahl immer noch aufrufen?

Dank Rahul Dighe

Antwort

6

Feature Selection ist der Prozess der "interessanten" Features aus Ihrem Set zur weiteren Verarbeitung auswählen.

Feature Frequenz ist genau das, die Häufigkeit, mit der ein Feature angezeigt wird.

Information Gain, Maximum Entropy usw. sind Gewichtungsmethoden, die Feature Frequency verwenden, mit denen Sie Feature-Auswahl durchführen können.

Betrachten Sie es wie folgt aus:

Sie einen Korpus analysieren, und eine Laufzeit/Dokument-Matrix erstellen. Diese Matrix beginnt mit der Zählung der Begriffe und dem Dokument, in dem sie erscheinen (einfache Häufigkeit).

Um diese Matrix aussagekräftiger zu machen, gewichten Sie die Begriffe basierend auf einer Funktion einschließlich der Häufigkeit (wie Begriff Frequenz-inverse Dokumenthäufigkeit, Informationsgewinn, maximale Entropie). Nun enthält diese Matrix die Gewichte oder Wichtigkeit jedes Terms in Bezug auf die anderen Terme in der Matrix.

Sobald Sie das haben, können Sie Feature-Auswahl verwenden, um nur die wichtigsten Begriffe zu behalten (wenn Sie Dinge wie Klassifizierung oder Kategorisierung tun) und weitere Analysen durchführen.

+0

Was ist also Merkmalsextraktion? –

+2

Feature Extraction ist der Prozess der Verringerung der Dimensionalität Ihrer Daten (in der Regel durch SVD, PCA, etc.). Siehe diesen Link: http://en.wikipedia.org/wiki/Feature_extraction – GalacticJello

8

Merkmalsextraktion: Dimensionalität reduzieren, indem (linear oder nicht-linear ) Projektion von d-dimensionalen Vektors auf d-dimensionalen Vektor (d < D). Beispiel: Hauptkomponentenanalyse

Merkmalauswahl: Reduzieren Sie die Dimensionalität, indem Sie die Teilmenge der ursprünglichen Variablen auswählen. Beispiel: vorwärts oder rückwärts Merkmalsauswahl

17

Rahul-

All dies sind gute Antworten. Die eine Sache, die ich erwähnen möchte, ist, dass der grundlegende Unterschied zwischen Auswahl und Extraktion mit dem zu tun hat, wie Sie die Daten behandeln.

Funktion Extraktion Methoden sind transformativ - das heißt, Sie wenden eine Transformation auf Ihre Daten an, um sie in einen neuen Feature-Space mit geringerer Dimension zu projizieren. PCA und SVD sind Beispiele dafür.

Feature Auswahl Methoden wählen Funktionen aus dem ursprünglichen Satz auf der Grundlage einiger Kriterien, Information Gain, Korrelation und gegenseitige Informationen sind nur Kriterien, die zum Ausfiltern von unwichtigen oder redundanten Funktionen verwendet werden. Eingebettete oder Wrapper-Methoden, wie sie genannt werden, können spezialisierte Klassifizierer verwenden, um eine Feature-Auswahl zu erreichen und das Dataset gleichzeitig zu klassifizieren.

Ein wirklich schöner Überblick über den Problembereich ist gegeben here.

Viel Glück!

+0

wirklich großartige Erklärung. Link ist aber tot ... :) – Boern