2016-05-08 11 views
1

Ich habe eine CSV-Datei mit folgenden Datenfinden selten Zeilen zwischen zwei CSV-Dateien gemeinsames Feld mit

code 
AAA 
BBA 
CCC 

und einem anderen CSV-Datei mit unterschiedlicher Struktur, aber gemeinsamer Spalte:

code 
AAA 
BBA 
CCF 

mag ich finden welcher Code zuerst in dem zweiten Datenrahmen nicht existiert. In diesem Fall CCC.

Wie kann ich das tun?

+0

http://stackoverflow.com/questions/6486450/python-compute-list-difference –

Antwort

2

Da Sie das pandas Tag verwenden, gehe ich davon aus, dass Sie nach einer Lösung mit pandas suchen. Wenn Sie beide CSV-Dateien in zwei verschiedenen Datenrahmen gelesen hatte, dann unter der Annahme, dass die erste CSV in df_1 und die zweite in df_2 gelesen wird, können Sie dies tun:

>> df_1[~df_1['code'].isin(df_2['code'])][['code']] 

oder

>> set(df_1['code'].values.tolist()) - set(df_2['code'].values.tolist()) 

oder

>> set(list(df_1['code'])) - set(list(df_2['code'])) 

Ich hoffe, das hilft!

+0

Danke das, was ich gesucht habe ... – nnnnmmm

+0

Froh, dass es geholfen hat, viel Glück! – Thanos

Verwandte Themen