R Auswahl der Zelle mit der höchsten Anzahl von Zellen in Abhängigkeit von einer zweiten Spalte

Entschuldigung, wenn es sich um ein Duplikat handelt, lassen Sie es mich bitte wissen, ich werde es gerne löschen.R Auswahl der Zelle mit der höchsten Anzahl von Zellen in Abhängigkeit von einer zweiten Spalte

Ich versuche, die vier höchsten Werte für verschiedene Werte einer anderen Spalte auszuwählen.

Datensatz:

Zum Beispiel würde Ich mag vier höchsten Werte auswählen, wenn A = 1 (9,7,7,6) dann, wenn A = 2 (9,8,5,5) und so weiter ...

Ich habe verschiedene Antworten auf 'Auswahl der höchsten Werte' gesucht, hatte aber Mühe, eine Beispielkonditionierung auf einer anderen Spalte zu finden.

Vielen Dank

Quelle

2017-08-01 Charlie0210

Sie könnten COUNT von A gespalten und dann die Top-4-Werte für jede Untergruppe

lapply(split(df$COUNT, df$A), function(x) head(sort(x, decreasing = TRUE), 4)) 
#$`1` 
#[1] 9 7 7 6 

#$`2` 
#[1] 9 8 5 5 

#$`3` 
#[1] 9 8 7 6 

#$`4` 
#[1] 9 8 3 1

sapply Mit geben könnte eine freundlichere Ausgabe

sapply(split(df$COUNT, df$A), function(x) head(sort(x, decreasing = TRUE), 4)) 
#  1 2 3 4 
#[1,] 9 9 9 9 
#[2,] 7 8 8 8 
#[3,] 7 5 7 3 
#[4,] 6 5 6 1

Quelle

2017-08-01 14:56:00

erhalten Sie können Aggregat verwenden:

aggr <- aggregate(COUNT~A,data=DF,function(x)head(sort(x,decreasing=TRUE),4)) 
> aggr 
    A COUNT.1 COUNT.2 COUNT.3 COUNT.4 
1 1  9  7  7  6 
2 2  9  8  5  5 
3 3  9  8  7  6 
4 4  9  8  3  1

Quelle

2017-08-01 15:03:40 digEmAll

library(dplyr) 
new1 <- df %>% 
    group_by(A)%>% 
    summarise(y = tail(sort(COUNT),4))

Quelle

2017-08-01 15:05:44

Ihr Code führt zu dieser Fehlermeldung: Fehler in summarise_impl (.Daten, Punkte): Spalte 'y' muss Länge 1 (ein Summenwert) sein, nicht 4 – www

Wir können zuerst durch A und absteigend von COUNT und der Scheibe des Datenrahmen zu halten, um die oberen 4 Reihen jeder Gruppe in A. dt2 den Datenrahmen ordnen ist der Ausgang von diesem.

library(dplyr) 
library(tidyr) 

dt2 <- dt %>% 
    arrange(A, desc(COUNT)) %>% 
    group_by(A) %>% 
    slice(1:4)

Danach können wir auch den Datenrahmen vom langen Format in das breite Format ändern. dt3 ist die Ausgabe von diesem.

dt3 <- dt2 %>% 
    mutate(Count_Num = paste0("Count", 1:n())) %>% 
    spread(Count_Num, COUNT)

Quelle

2017-08-01 15:09:35 www

Eine weitere Basis R Option ist tapply mit order und [

tapply(dat$COUNT, dat$A, function(x) x[order(-x)][1:4]) 
$`1` 
[1] 9 7 7 6 

$`2` 
[1] 9 8 5 5 

$`3` 
[1] 9 8 7 6 

$`4` 
[1] 9 8 3 1

eine benannte Liste zurückzukehren.

mit by

by(dt$COUNT, dt$A, function(x) x[order(-x)][1:4])

erhalten Sie schönere Ausgabe auf dem Bildschirm.

Sie können beide in eine Matrix mit dem do.callrbind Paradigma. Zum Beispiel

do.call(rbind, by(dt$COUNT, dt$A, function(x) x[order(-x)][1:4])) 
    [,1] [,2] [,3] [,4] 
1 9 7 7 6 
2 9 8 5 5 
3 9 8 7 6 
4 9 8 3 1

Mit data.table, könnten Sie tun

library(data.table) 
setDT(dat)[order(-COUNT), head(COUNT, 4), by="A"] 
    A V1 
1: 1 9 
2: 1 7 
3: 1 7 
4: 1 6 
5: 2 9 
6: 2 8 
7: 2 5 
8: 2 5 
9: 3 9 
10: 3 8 
11: 3 7 
12: 3 6 
13: 4 9 
14: 4 8 
15: 4 3 
16: 4 1

eine data.table mit den Top-4-Werte zurück.

Quelle

2017-08-01 15:22:10 lmo

R Auswahl der Zelle mit der höchsten Anzahl von Zellen in Abhängigkeit von einer zweiten Spalte

Antwort

Verwandte Themen