Schnell anwenden String-Operationen in einem Pandas DataFrame

Angenommen, ich habe eine DataFrame mit 100k Zeilen und eine Spalte name. Ich möchte diesen Namen so effizient wie möglich in Vor- und Nachnamen aufteilen. Meine aktuelle Methode ist,Schnell anwenden String-Operationen in einem Pandas DataFrame

def splitName(name): 
    return pandas.Series(name.split()[0:2]) 

df[['first', 'last']] = df.apply(lambda x: splitName(x['name']), axis=1)

Leider DataFrame.apply ist wirklich, wirklich langsam. Gibt es etwas, was ich tun kann, um diese String-Operation fast so schnell wie eine numpy Operation zu machen?

Danke!

Quelle

2012-10-10 duckworthd

Wenn Sie Pandas 0.8.1 oder höher haben, sieht es aus wie Sie sollten in der Lage 'series.str.split()' zu tun. Dokumente hier: http://pandas.pydata.org/pandas-docs/stable/basics.html#vectorized-string-methoden –

Try (erfordert Pandas> = 0.8.1):

splits = x['name'].split() 
df['first'] = splits.str[0] 
df['last'] = splits.str[1]

Quelle

2012-10-11 20:03:34

Perfekt! Ich wusste nichts von diesem Zusatz. – duckworthd

Interessanterweise ist diese Frage identisch mit [diesem späteren] (http://stackoverflow.com/questions/17116814/pandas-how-do-i-split-text-in-a-column-into-multiple-columns) aber die Antwort hat keine Erwähnung von 'Series.split()'. Wurde es aus 'Pandas' entfernt? – LondonRob

Es ist jetzt als 'Series.str.split()' verfügbar – joris

Schnell anwenden String-Operationen in einem Pandas DataFrame

Antwort

Verwandte Themen