sind habe ich einen Datenrahmen ähnlich wie diese:Effizientes laufenden Betrieb auf Pandas Dataframe Spalten, die nicht eindeutig
import numpy as np
raw_data = {'Identifier':['10','10','10','11',11,'12','13']}
import pandas as pd
df = pd.DataFrame(raw_data,columns=['Identifier'])
print df
Wie Sie die ‚Identifier‘ sehen Spalte nicht eindeutig zuzuordnen sind und die Datenrahmen hat sich viele Zeilen.
Jedesmal, wenn ich eine Berechnung auf der Identifier Spalte zu tun mit:
df['CalculatedColumn'] = df['Identifer'] + apply calculation here
Als Identifer nicht eindeutig ist, gibt es einen besseren Weg, dies zu tun? Vielleicht speichern Sie die Berechnungen für jede eindeutige Kennung und geben Sie dann die Ergebnisse? Die Berechnung ist ziemlich komplex und addiert mit der Anzahl der Zeilen, dies dauert lange. Aber ich möchte es reduzieren, da die Bezeichner nicht eindeutig sind.
Irgendwelche Gedanken?
Können Sie ein konkretes Beispiel dafür geben, was Sie vorhaben? Ich bin verwirrt. –