Ich habe 2 CSV-Datei wie unten formatiert:Wie ähnlichen Zeilenwert zu finden und
csv A
Tweet1,pos
Tweet2,neg
Tweet2,neg
csv B
Tweet2,neg
Tweet2,neg
Tweet2,pos
Ich möchte die Anzahl der Ähnlichkeit zwischen Raws
findenhabe ich versucht, diese aber es gibt
def compare(fileA, fileB):
a_file = open(fileA, 'r')
a_data = a_file.read()
a_file.close()
b_file = open(fileB, 'r')
b_data = b_file.read()
b_file.close()
# compare the contents
a_set = set(a_data.split(','))
b_set = set(b_data.split(','))
return list(a_set.intersection(b_set))
print compare('f.csv', 'full-corpus.csv')
die Unterschiede Nähte sollten Der Ausgang 1
Ihr aktueller Code teilt den gesamten Dateiinhalt mit einem Komma auf. Was Sie tun müssen, ist Linien zu vergleichen. Versuchen Sie also, mit einem '\ n' anstelle von ',' –
@PrateekDewan aufzuteilen, warum die Schnittmenge in 'list (a_set.intersection (b_set))' nicht die Duplikate zählt, zB ** Tweet2, neg ** ist zwei aufgetreten mal in csv A und zwei mal in csv B, warum len das mal überlegen. – Alsphere
Es ist nicht "len". Sets enthalten nur eindeutige Werte. –