-2

den Merkmalsraum für ein Textdokument Modellierung ist ganz einfach.
Zum Beispiel kann ich jedes Wort aus einem Text (Trainingsdaten) als eine Funktion nehmen.
Wenn ein bestimmtes Wort (zum Beispiel „Hund“) mehrfach in (klassifizierte) Trainingsbeispiele (zum Beispiel als Spam klassifizieren) trifft, dann kann ich dieses Wort ergreifen, um neue Daten zu klassifizieren.Naive Bayes-Klassifizierung für die NO-Text-Klassifikation

Wie kann ich meine Funktionen modellieren, wenn sie nur Worte Arent?
In meinem speziellen Fall habe ich Funktionen wie Name, Alter und Familiengröße.
Ich glaube nicht, dass es der richtige Weg ist, um einen Eintrag für jedes mögliche Alter in meinem Feature-Vektor zu machen.
Wenn ich annehme, dass Menschen nicht später als 100 sterben, würde ich 100 Ziffern nur für meine Altersfunktion haben.
Also dachte ich über Daten Binning: Partitionieren Sie die Funktion "Alter" in vielleicht 1-20 Jahre, 21-40 Jahre alt, 41-60, ... Um eine Person mit dem Alter von 30 würde ich nur 5 zu modellieren Ziffern jetzt (01000).

Gibt es eine bessere Art und Weise Funktionen wie diese zu modellieren?

Antwort

0

Es scheint, dass ich eine answer1answer2 gefunden. Daher kann man das Merkmal Modell mit entweder Binning oder durch eine (normal) Verteilung verwenden, die die kontinuierliche Funktion passt.

Verwandte Themen