Kombination 2 Spalten in 1 Spalte oft in einer sehr großen Datenmenge in R seine Kombination schnell, wenn ich sie zur Arbeit bringen kann und der wahre Datensatz ist ~ 1500 X 45000, also müssen sie schnell sein. Ich habe definitiv einen Verlust für 1) an dieser Stelle, obwohl einige Code für 2) und 3) haben.2 Spalten in 1 Spalte oft in einer sehr großen Datenmenge in R
ist hier ein Spielzeug Beispiel der Datenstruktur:
pop = data.frame(status = rbinom(n, 1, .42), sex = rbinom(n, 1, .5),
age = round(rnorm(n, mean=40, 10)), disType = rbinom(n, 1, .2),
rs123=c(1,3,1,3,3,1,1,1,3,1), rs123.1=rep(1, n), rs157=c(2,4,2,2,2,4,4,4,2,2),
rs157.1=c(4,4,4,2,4,4,4,4,2,2), rs132=c(4,4,4,4,4,4,4,4,2,2),
rs132.1=c(4,4,4,4,4,4,4,4,4,4))
So gibt es ein paar Spalten von grundlegenden demographischen Informationen und dann der Rest der Spalten sind Biallel SNP Info. Beispiel: rs123 ist Allel 1 von rs123 und rs123.1 ist das zweite Allel von rs123.
1) muss ich alle biallelischen SNP-Daten fusionieren, die derzeit in 2 Spalten in 1 Spalte ist, so zum Beispiel: rs123 rs123.1 und in eine Spalte (aber innerhalb des Datensatzes):
11
31
11
31
31
11
11
11
31
11
2) Ich muss den seltensten SNP-Wert identifizieren (im obigen Beispiel ist es 31).
3) Ich brauche den seltensten SNP-Wert mit 1 und die andere (n) mit 0
Paste! Na sicher! Ich meinte verketten. Vielen Dank für die Hilfe. Jetzt arbeite ich daran, dass es über 45.000 Spalten funktioniert. Danke noch einmal! –
Sie können mit 'grep()' und 'match()' arbeiten, um Spaltenindizes zu erhalten. Fühlen Sie sich auch frei, diese Antwort aufzufrischen und/oder zu akzeptieren, wenn sie Ihnen als die richtige erscheint :-) –
akzeptiert! :) Ich habe noch nicht genug Reputationspunkte, um noch zu upvoten ...! –