2011-01-14 9 views
1

Ich habe eine 6 MB große CSV-Datei. Ich möchte die Daten nach Spalte A & Spalte C filtern, so dass ich alle Duplikate entfernen muss. Was ist der einfachste Weg dies zu tun? Jede Hilfe wird sehr geschätzt.Finden von eindeutigen Werten aus einer Datei

+0

Sprache geben ...... .? –

+0

Der einfachste Weg ist, was ich will – mousey

Antwort

4

Verwenden Sie cut oder awk, um Felder auszuwählen. Sortieren und uniq zum Entfernen von Duplikaten. Zum Beispiel

awk -F"," '{print $1}' A.csv|sort|uniq 
+0

Ich kenne keine dieser Kommandozeilen-Tools. Können Sie mir mit den Befehlen zu pls helfen – mousey

+0

können Sie erklären, was der Befehl tut? Ich habe diesen Teil nicht bekommen "," '{print $ 1}' – mousey

+0

Ich habe den Befehl – mousey

8
cat foo.csv | cut -f2 -d , | sort | uniq 

Es wird Ihnen eine eindeutige ID aus der 2. Säule

cat foo.csv | cut -f1 -d , | sort | uniq 

Es wird Sie eindeutige IDs aus der 1. Säule

-f <number> : column number 

-d <space><delimiter> : file delimiter 
Verwandte Themen