Ich habe versucht, eine Möglichkeit zu finden, Zeilen zu wählen, die basierend auf den Werten von zwei Spalten eindeutig sind. Zum Beispiel, hier ist ein Beispiel/example meine Datei:Auswählen eindeutiger Zeilen basierend auf zwei Spalten
chr1 10 12
chr1 10 12
chr1 10 11
chr1 9 12
chr2 15 20
Und das ist, was ich will meine Ausgabe aussehen:
chr1 10 12
chr1 10 11
chr1 9 12
chr2 15 20
Ich habe versucht, diesen Code zu verwenden, weil Ich mag wie es nicht mit der Reihenfolge meiner Datei durcheinander kommt:
awk -F"\t" '!_[$2]++' SNP_positions.txt > SNP_positions_uniq.txt
Allerdings erfasst es nur einzigartige Merkmale einer Spalte. Gibt es eine Möglichkeit, dies zu bearbeiten, damit es für zwei Spalten funktioniert?
Sie erwähnen zwei Spalten, aber es gibt drei in Ihrer Datei. Welche sollten berücksichtigt werden? Geben Sie nach Möglichkeit ein generischeres Beispiel an. Ihr derzeitiger Ansatz funktioniert für die angegebene Datei, daher kann es noch etwas anderes geben. – fedorqui
Ich möchte Zeilen finden, die eindeutige Werte in Spalte zwei und drei haben. Wenn ich den obigen Code benutze, würde meine Ausgabe nicht die dritte Zeile in meiner Ausgabe ergeben (chr1 122332 130204). Ich werde es bearbeiten, um es einfacher zu machen – cosmictypist
Wer auch immer Ihnen gesagt hat, '_' als variablen Namen zu verwenden, ist ein Idiot, hören Sie ihnen nicht mehr zu. Wir alle wissen, dass single-letter Variablennamen im Allgemeinen am besten vermieden werden, da sie nichts tun, um die Klarheit Ihres Codes zu verbessern, aber etwas zu verwenden, das nicht einmal ein Buchstabe ist, ist einfach lächerlich. –