Ich habe eine CSV-Datei, und ich bereite seine Daten mit verschiedenen maschinellen Lernalgorithmen trainiert werden, so ersetzt ich fehlende numerische Daten mit dem Mittelwert dieser Spalte, aber wie mit fehlenden umzugehen kategorische Daten, sollte ich sie durch das häufigste Element ersetzen? und was ist der einfachste warum, um es in Python mit Pandas zu tun.Umgang mit fehlenden kategorischen Daten python
Code:
dataset = pd.read_csv('doc.csv')
X = dataset.iloc[:, [2, 4, 5, 6, 7, 9,10 ,11]].values
y = dataset.iloc[:, -1].values
Zeilennummer 2 enthält die kategorischen Daten.
ersten Zeilenwert:
[3, 'S', 22,0, 1, 0, 7,25, 107722, 2]