Ich baue gerade einen gefälschten Datensatz zum Spielen mit. Ich habe einen Datensatz, genannt patient_data, die den Patienten Informationen hat:Hinzufügen neuer permanenter Spalte zum Datenrahmen python
patient_data = pd.DataFrame(np.random.randn(100,5),columns='id name dob sex state'.split())
Das gibt mir eine Probe von 100 Beobachtungen, mit Variablen wie Name, Geburtstag etc.
ist klar, das sind einige der (wie Name Geschlecht und Staat) sind kategorische Variablen, und es macht keinen Sinn, Zufallszahlen daran zu haben.
Also für "Sex" -Spalte, ich habe eine Funktion erstellt, die jede beliebige Zahl < 0 zu lesen "männlich" und alles andere, um "weiblich" zu lesen. Ich möchte eine neue Variable erstellen diese innerhalb dieser Variable „Geschlecht“ und speichern „gender“
def malefemale(x):
if x < 0:
print('male')
else:
print('female')
Und dann schrieb ich einen Code, um diese Funktion in den Datenrahmen anzuwenden, um offiziell eine neue Variable zu erstellen
patient_data.assign(gender = patient_data['sex'].apply(malefemale))
Aber als ich „patient_data“ im jupiter Notebook-Typ, ich habe nicht den Datenrahmen sehen aktualisiert, um diese neue Variable enthalten. Es scheint, als wäre nichts getan worden.
Weiß jemand, was ich tun kann, um diese neue Geschlechtsvariable permanent in meinen patient_data-Datenrahmen einzufügen, wobei die Funktion richtig funktioniert?