Ich habe etwa 350 Textdateien (und jede Datei ist etwa 75 MB). Ich versuche, alle Dateien zu kombinieren und doppelte Einträge zu entfernen. Die Datei ist in folgendem Format:mehrere Textdateien kombinieren und Duplikate entfernen
ip1,dns1
ip2,dns2
...
ich einen kleinen Shell-Skript schrieb diese
#!/bin/bash
for file in data/*
do
cat "$file" >> dnsFull
done
sort dnsFull > dnsSorted
uniq dnsSorted dnsOut
rm dnsFull dnsSorted
zu tun oft ich mache diese Verarbeitung und frag dich, ob es etwas gibt, was ich tun konnte zu verbessern die Verarbeitung beim nächsten Mal wenn ich es ausführe. Ich bin offen für jede Programmiersprache und Vorschläge. Vielen Dank!
Sie könnten auch sortieren -ma versuchen -> es wird die einzelnen Dateien sortieren und sie entsprechend zusammenführen, daher sollte eine Menge Zeit sparen .... die Option -m war espl für Szenario wie folgt ... dh Sortieren -m Datei * | uniq -u – nsd