Fehlende Werte sind ein häufiges Problem bei der Datenanalyse. Eine gemeinsame Strategie scheint zu sein, dass fehlende Werte durch Werte ersetzt werden, die zufällig aus der Verteilung bestehender Werte entnommen werden.Fehlende Werte durch Stichproben von der Verteilung bestehender Werte ableiten
Gibt es Python-Bibliothekscode, der diesen Vorverarbeitungsschritt auf einem Datenrahmen bequem durchführt? Soweit ich sehe, bietet das sklearn.preprocessing
Modul diese Strategie nicht an.
Sie können ['Beispiel'] (http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.sample.html) verwenden, um dies zu tun – EdChum
statsmodels hat MICE (in Master und 0.8 rc), das die Vorhersage der mittleren Übereinstimmung implementiert, die imputierte Beobachtungen von Nachbarn auswählt, deren Nachbarschaft durch prädiktive Nähe definiert ist. – user333700