-2

ich auf einem kurzen Satz Klassifikationsproblem arbeite, wo ich die folgenden InformationenKombination Word-Vektoren und Skalare Funktionen für die Klassifizierung

Eingang Alter der Person (1-100) Geschlecht der Person zu bekommen (Männlich oder weiblich) Inhalt des Satzes

Ausgabe beschriften (Typ Inhalt)

die Sätze zu modellieren Ich verwende Word2vec kombiniert mit Tfidf. Ich möchte auch Alter und Geschlecht als Merkmale zusammen mit der Satzeinbettung in den Klassifikator hinzufügen. Was ist der richtige Weg, dies zu tun? Da die Einbettung ein n-dimensionales Array ist und Alter, Geschlecht sind Skalare. Ich bin verwirrt darüber, wie man sie hinzufügt und die Daten visualisiert.

Antwort

0

Worteinbettungen sind als n-dimensionale Vektoren nur n Skalare. Wenn Sie zum Beispiel 300-dimensionale Vektoren haben, die von Wortvektoren abgeleitet sind, dann einen Skalar für das Alter (1-100), dann einen Skalar für den Geschlechtstyp (vielleicht 0 oder 1), haben Sie 302 Datendimensionen für Ihren Klassifikator.

Siehe die sklearn FeatureUnion transformer für ein Beispiel der Verkettung solcher verschiedenen Funktionen zusammen. (Einige Klassifizierer könnten bessere Ergebnisse erzielen, wenn diese verschiedenen Merkmale so skaliert werden, dass sie ähnliche Bereiche/Verteilungen aufweisen.)

Verwandte Themen