Extrahieren nth Element aus einer verschachtelten Liste nach Strsplit - R

Ich habe versucht zu verstehen, wie man mit der Ausgabe von strsplit ein bisschen besser umgehen. Ich habe oft Daten wie diese, die ich teilen wollen:Extrahieren nth Element aus einer verschachtelten Liste nach Strsplit - R

mydata <- c("144/4/5", "154/2", "146/3/5", "142", "143/4", "DNB", "90") 

#[1] "144/4/5" "154/2" "146/3/5" "142"  "143/4" "DNB"  "90"

Nach Spaltung, dass die Ergebnisse sind wie folgt:

strsplit(mydata, "/") 

#[[1]] 
#[1] "144" "4" "5" 

#[[2]] 
#[1] "154" "2" 

#[[3]] 
#[1] "146" "3" "5" 

#[[4]] 
#[1] "142" 

#[[5]] 
#[1] "143" "4" 

#[[6]] 
#[1] "DNB" 

#[[7]] 
#[1] "90"

Ich weiß von der strsplit Hilfe-Anleitung, die letzte leere Strings nicht erzeugt werden . Daher wird es 1, 2 oder 3 Elementen in jedem meiner Ergebnisse basierend auf der Anzahl von „/“ aufzuspalten von

das erste Element zu erhalten ist sehr trivial:

sapply(strsplit(mydata, "/"), "[[", 1) 

#[1] "144" "154" "146" "142" "143" "DNB" "90"

Aber ich bin nicht sicher, wie man die 2., 3. ... bekommt, wenn es diese ungleiche Anzahl von Elementen in jedem Ergebnis gibt.

sapply(strsplit(mydata, "/"), "[[", 2) 

# Error in FUN(X[[4L]], ...) : subscript out of bounds

Ich hoffe, von einer Arbeitslösung zurück, die folgenden:

#[1] "4" "2" "3" "NA" "4" "NA" "NA"

Dies ist ein relativ kleines Beispiel ist. Ich konnte einige for-Schleife sehr einfach auf diesen Daten machen, aber für echte Daten mit 1000s von Beobachtungen, um den strsplit laufen zu lassen, und Dutzenden von Elementen, die daraus erzeugt wurden, hoffte ich, eine verallgemeinerbare Lösung zu finden.

Quelle

2014-09-01 jalapic

mit '[' statt '[[' hinzufügen scheint –

zu funktionieren @alexis_laz Sie sollten diese eine Antwort machen. Ich kann das nicht in 'help (" [")' finden. – Roland

(zumindest in Bezug auf 1D Vektoren) [ scheint NA zurückzukehren, wenn "i> Länge (x)", während [[ einen Fehler zurückgibt.

x = runif(5) 
x[6] 
#[1] NA 
x[[6]] 
#Error in x[[6]] : subscript out of bounds

ein wenig Graben, do_subset_dflt (dh [) ruft ExtractSubset, wo wir feststellen, dass, wenn ein gesuchter Index („ii“) ist „> Länge (x)“ NA (ein wenig zu sauber geändert) zurückgegeben :

if(0 <= ii && ii < nx && ii != NA_INTEGER) 
    result[i] = x[ii]; 
else 
    result[i] = NA_INTEGER;

Auf der anderen Seite do_subset2_dflt (dh[[) gibt einen Fehler, wenn der gewünschte Index ("Offset") ist "> Länge (x)" (modifizierte ein bisschen sauber sein):

if(offset < 0 || offset >= xlength(x)) { 
    if(offset < 0 && (isNewList(x)) ... 
    else errorcall(call, R_MSG_subs_o_b); 
}

wo #define R_MSG_subs_o_b _("subscript out of bounds")

(Ich bin nicht sicher über die obigen Code-Schnipsel, aber sie scheinen relevant auf der Grundlage ihrer Rückgaben)

Quelle

2014-09-01 19:13:28

Versuchen Sie folgendes:

> read.table(text = mydata, sep = "/", as.is = TRUE, fill = TRUE) 
    V1 V2 V3 
1 144 4 5 
2 154 2 NA 
3 146 3 5 
4 142 NA NA 
5 143 4 NA 
6 DNB NA NA 
7 90 NA NA

Wenn Sie DNB behandeln wollen wie ein NA dann na.strings="DNB" das Argument hinzufügen.

Wenn Sie wirklich strsplit dann versuchen, diese verwenden möchten:

> do.call(rbind, lapply(strsplit(mydata, "/"), function(x) head(c(x,NA,NA), 3))) 
    [,1] [,2] [,3] 
[1,] "144" "4" "5" 
[2,] "154" "2" NA 
[3,] "146" "3" "5" 
[4,] "142" NA NA 
[5,] "143" "4" NA 
[6,] "DNB" NA NA 
[7,] "90" NA NA

Hinweis: alexis_laz Beobachtung Mit dass x[i] kehrt NA wenn i ist oben nicht in 1:length(x) die letzte Zeile Code vereinfacht werden könnte:

t(sapply(strsplit(mydata, "/"), "[", 1:3))

Quelle

2014-09-01 15:24:49

In Bezug auf Ihren zweiten Ansatz: Verwenden Sie 'length <-' sollte vorzuziehen sein. 'nmax <- max (sapply (mysplitdata, length)); mysplitdata <- lapply (mysplitdata, "Länge <-", Wert = nmax) ' – Roland

Sie könnten regex verwenden (wenn es erlaubt ist)

library(stringr) 
str_extract(mydata , perl("(?<=\\d/)\\d+")) 
#[1] "4" "2" "3" NA "4" NA NA 
str_extract(mydata , perl("(?<=/\\d/)\\d+")) 
#[1] "5" NA "5" NA NA NA NA

Quelle

2014-09-01 16:18:33 akrun

Sie können die Länge innerhalb sapply, was in NA, wo die aktuelle Länge ist kürzer als die zugewiesene Länge.

s <- strsplit(mydata, "/") 
sapply(s, function(x) { length(x) <- 3; x[2] }) 
# [1] "4" "2" "3" NA "4" NA NA

Dann können Sie ein zweites Indexierungs Argument mit mapply

m <- max(sapply(s, length)) 
mapply(function(x, y, z) { length(x) <- z; x[y] }, s, 2, m) 
# [1] "4" "2" "3" NA "4" NA NA

Quelle

2014-09-01 19:20:26

Extrahieren nth Element aus einer verschachtelten Liste nach Strsplit - R

Antwort

Verwandte Themen