2017-07-05 3 views
0

Ich habe einige Verzeichnis und DateienWie gleiche fiile suchen und in Pandas

Directory1 

file1 
file2 
file3 

Directory2 

file1 
file2 
file3 

Ich möchte vergleichen jede Datei in jedem Verzeichnis vergleichen.

Ich versuchte

'glob.glob' 

und

'lesen csv'

Ich glaube, ich

'diff' Methode angewendet haben sollte.

Aber ich konnte den nächsten Schritt nicht herausfinden. Wie kann ich die gleichen Namen Dateien in jedem Verzeichnis vergleichen?

Antwort

1

wenn Sie CSV-Dateien lesen und zu Datenrahmen umwandeln dann diese link könnte nützlich sein

1

Können Sie erarbeiten, was meinen Sie mit vergleichen?

Um die Liste der Dateien in Ihrem Verzeichnis zu erhalten, können Sie verwenden, dann können Sie die Liste durchlaufen und mit Ihrer Referenzdatei vergleichen. Auch diese link sagt Ihnen, wie man den Inhalt von zwei Datenrahmen in Pandas vergleicht.

1

Sie können eine MD5-Prüfsumme des Dateiinhalts in einem dict erzeugen und nach equals-Prüfsummen suchen.

import glob 
import hashlib 

example = dict(('%s' % _, hashlib.md5(open('%s' % _, 'rb').read()).hexdigest()) for _ in glob.glob('*')) 

{'file1': 'b026324c6904b2a9cb4b88d6d61c81d1', 'file2': '26ab0db90d72e28ad0ba1e22ee510510', 'file3': '26ab0db90d72e28ad0ba1e22ee510510', 'file4': '48a24b70a0b376535542b996af517398'} 
+0

Datei2 und Datei3 sind gleich. –

Verwandte Themen