Dies ist ein Teil des Feature-Engineering, der jede ID abhängig von der Spalte mit der Bezeichnung Col zusammenfasst. Derselbe Vorprozess wird auf den Testsatz angewendet. Da die Datenmenge groß ist, kann die datenbasierte Lösung bevorzugt werden.So erhalten Sie eine schnelle Zusammenfassung der Anzahl in data.table
Training Input:
ID Col
A M
A M
A M
B K
B M
Erwartete Ausgabe für über Trainingseingang:
ID Col_M Col_K
A 3 0 # A has 3 M in Col and 0 K in Col
B 1 1
Oben ist für Trainingsdaten zu verarbeiten. Zum Testen des Datasets ist eine Zuordnung über Col_M, Col_K erforderlich, dh wenn ein anderer Wert wie S in Col erscheint, wird er ignoriert.
Testing Input:
ID Col
C M
C S
Erwartete Ausgabe für über Testeingang:
ID Col_M Col_K
C 1 0 # A has 1 M in Col and 0 K in Col. S value is ignored
können Sie einige Absätze auf, zu erklären, was gezeigt wird? Dummy-Code kann helfen, gute Antworten zu erstellen :) – pachamaltese
Wenn Sie tatsächlich R installiert haben, und die data.table Paket auch, gibt es das: https://stackoverflow.com/q/18881073/ Definieren Sie einfach Ihre eigenen 'inds' Werte. – Frank
@pachamaldese, ja, gerade hinzugefügt. – HappyCoding