Ich habe einen Datensatz, der ein Datensatz von String ist, und es hat die DatenHerauszufinden Duplikate in einem Datensatz in scala
12348,5,233,234559,4
12348,5,233,234559,4
12349,6,233,234560,5
12350,7,233,234561,6
Ich möchte die doppelten Zeilen in einem Datensatz, um herauszufinden, wie ich tun, dass ? Ich möchte die Duplikate entfernen. Im Beispiel ist die doppelte Zeile 12348,5,233,234559,4
und ich möchte nur eine einzige Instanz davon ausgeben.
Wie gehe ich vor?
Danke, das hat funktioniert. Sehr geschätzt. Kannst du das bitte erklären - (count, row) => count + (row -> (count.getOrElse (row, 0) + 1)) .. ich bin neu in scala. – user3897533
Sie denken, 'Map' speichert keine Daten im Speicher? : D – Dima
Hey @ user3897533, in einer Erklärung oben hinzugefügt. Scala kann schwierig sein! Dima, ich verstehe, dass das Gedächtnis nutzen wird. Wie viel davon war ich unsicher? Get lines gibt einen Iterator zurück und faltet einfach über diesen Iterator, so dass ich nicht dachte, dass die gesamte Datei tatsächlich gespeichert wird, um diese Operation auszuführen. Ist das falsch? Ich gab auch an, dass ich nicht positiv war und nur eine andere Lösung anbot. –