2

Ich bin daran interessiert, Text Kategorisierung mit LibSVM zu tun. Wie empfehle ich, die Begriffe/Wörter in numerische Daten umzuwandeln, damit LibSVM das verstehen kann?LibSVM und nicht numerische Daten

Vielen Dank!

Antwort

2

In der Textkategorisierung neigen Menschen dazu, Histogramme der Wörter zu erstellen, die in der Domäne verwendet werden, manchmal schauen sie sich Kombinationen von zwei Wörtern an und fügen diese in ihr Histogramm ein (dies werden Bigramme genannt). Aber es hängt wirklich von Ihren Daten und Ihren Zielen ab.

+0

Mein Problem ist nicht die Feature-Auswahl, sondern die tatsächliche Codierung in das LibSVM-Format, das numerisch sein muss. Auf ihrer Website erwähnen sie ein Beispiel für eine Textkategorisierung und machen einen Kommentar über die Proprocessing: "Wir verwenden binäre Termfrequenzen und normalisieren jede Instanz auf Einheitenlänge". Was sind binäre Termfrequenzen? – pns

+0

Binäre Termhäufigkeiten sind wie binäre Histogramme, wenn im Artikel ein Begriff erscheint oder nicht. Sie haben eine Reihe von Begriffen vordefiniert, dann scannen Sie den Artikel nach diesen Begriffen und die Ausgabe ist ein 1/0-Vektor. – carlosdc

+0

Ihr Recht, ich hatte Probleme zu finden, wo das eigentliche Feature (die Zeichenfolge) gespeichert werden würde. Aber schauen Sie sich das Dateiformat an: '[id,] label fid1: fval1 fid2: fval2 ....', es ist das fid. Danke! – pns