Ich habe eine CSV-Datei wie folgt aus:Wie Duplikate in einer CSV-Datei zu entfernen, basiert auf zwei Säulen?
column1 column2
john kerry
adam stephenson
ashley hudson
john kerry
etc..
ich Duplikate aus dieser Datei entfernen möchten, nur erhalten:
column1 column2
john kerry
adam stephenson
ashley hudson
ich dieses Skript geschrieben, das auf lastnames Duplikate basierend entfernt, aber ich müssen Duplikate basierend auf Nachnamen UND Vornamen entfernen.
import csv
reader=csv.reader(open('myfilewithduplicates.csv', 'r'), delimiter=',')
writer=csv.writer(open('myfilewithoutduplicates.csv', 'w'), delimiter=',')
lastnames = set()
for row in reader:
if row[1] not in lastnames:
writer.writerow(row)
lastnames.add(row[1])
"Ich schrieb dieses Skript, das Duplikate basierend auf Namen entfernt, aber ich muss die Duplikate basierend auf Name und Vorname entfernen." Ich bin hier verwirrt. Wenn du Namen sagst, meinst du Vorname, Nachname oder eine Verkettung? Dein Skript funktioniert nur mit Nachnamen. – Jeff
Sorry für Unklarheiten, ich möchte Duplikate basierend auf Nachnamen (Spalte2) und Vornamen (Spalte1) entfernen – Reveclair