Also habe ich Hunderte von Gruppen generiert und versuche zu vermeiden, dass ich sie durchforsten muss und schaue nur auf die mit den meisten Ergebnissen. Dafür zähle ich sie, bestelle sie und beschränke mich dann auf die Top 5 Ergebnisse.Zähle für 'Andere' außerhalb der Top 5 Ergebnisse mit Pig
counts = foreach (group distinctVals by (description)) generate group, COUNT_STAR(distinctVals) as count;
ordered = order counts by count desc;
limited = limit ordered 5;
dump limited;
Allerdings Ich mag würde eine separate Zählung haben, wie viele Ergebnisse haben die „Top 5“ nicht machen und ist sich als Gruppe genannt einfach andere.
So würde meine Ausgabe etwas wie
(John ,38436)
(Steve ,13654)
(Sarah ,9334)
(Rick ,3241)
(Morty ,784)
(Other ,3421)
Danke! Ich werde es versuchen. – Pxl