2016-12-25 3 views
1

Wie ich folgenden Code in mehr Pandas Art und Weise schreiben:Filtering Datenrahmen in effizienter Art und Weise

majority_df = df[(df.voting_majority_status_fk == 4) & (df.other == True)] 
minority_df = df[(df.voting_majority_status_fk == 3)] 

ich nur vp_fk nehmen muß, die in majority_df und nicht inminority_df und dann nur eindeutige Zeilen aus maintenance_df by found unique vp_fk

Wie kann ich folgen mehr Pandas Weg schreiben.

majority_vp_fk = set(majority_df.vp_fk) 
minority_vp_fk = set(minority_df.vp_fk) 

clean_majority_vp_fk = majority_vp_fk - minority_vp_fk 

clean_majority_df = majority_df[majority_df.vp_fk.isin(clean_majority_vp_fk)] 
clean_majority_df = clean_majority_df.drop_duplicates(subset=['probe_fk', 'vp_fk', 'masking_box_fk', 'product_fk']) 
+2

Könnten Sie einen kleiner reproduzierbarer Probendatensatz und erwartet/gewünschten resultierende Datensatz? – MaxU

Antwort

2

Hier ist meine „sehr theoretisch“ (es ist schwer, es zu testen, ohne Beispieldatensätze) Lösung:

minority_df = df[(df.voting_majority_status_fk == 3)] 
qry = "voting_majority_status_fk == 4 and other == True and vp_fk not in @minority_df.vp_fk" 
result = (df.query(qry) 
      .drop_duplicates(subset=['probe_fk', 'vp_fk', 'masking_box_fk', 'product_fk'])) 
Verwandte Themen