2016-06-01 7 views
-1

Ich habe einen Datensatz von 19000. Die Länge des einzigartigen Patienten-IDs ist 15000. ich einen Teil dieser einzigartigen IDs haben will, aber mit den anderen Variablen wie in der ursprünglichen DatenmengeSelect Untergruppe von eindeutigen Patienten ID

patnr  age and 25 other variables 
1   20 
2   21 
3   16 
4   5 
19000 

Wie kann ich das tun? siehe Jetzt kann ich nur, wie viele eindeutige Patienten-IDs sind in dieser Datenbank mit diesem Befehl:

length(unique(data$patnr)) 
+0

Willkommen bei Stack Overflow! Bitte lesen Sie die Informationen über [wie man eine gute Frage stellt] (http://stackoverflow.com/help/how-to-ask) und wie man ein [reproduzierbares Beispiel gibt] (http://stackoverflow.com/questions/ 5963269). Dies wird es anderen sehr erleichtern, Ihnen zu helfen. – zx8754

+0

Wenn 'patnr' dupliziert wird, welchen möchten Sie in den Ergebnissen behalten? – zx8754

Antwort

0

Lassen Sie uns sagen, dass Ihre data.frame genannt wird, df. Sie können unique verwenden wie folgt erscheinen, die erste Instanz einer Patienten-ID wählen:

dfUnique <- df[unique(df$patn), ] 

Beachten Sie, dass diese rund 4.000 Zeilen fallen wird, und Sie würden diese Informationen verloren gehen, wenn die anderen Variablen unterscheiden sich für den gleichen Patienten sind in der zweite Beobachtung.