Ich versuche, Daten aus 40k URLs zu extrahieren. URLs sind wie folgt aus:Datum aus einer Zeichenfolge (URL) extrahieren
1) ht-p://mashable.com/2014/09/19/shonda-rhimes-new-york-times/
2) http://mashable.com-2014/11/02/friendly-robbers-snl-sketch/
ich dies mit:
ymd(as.numeric(gsub("\\D", "", df$URL)))
, die mit 1 oder 2 Aufzeichnungen fein gearbeitet, aber mit 40k Aufzeichnungen gibt es mir
Nachricht Warnung: 4714 konnte nicht analysiert werden. Es gibt NAs für diese 4714-Werte.
Fehle ich etwas?
ist es num Ausgänge auf der anderen URL als Datum .. –
Versuch 'ymd (as.numeric (gsub (“. */(\\ d {4}/\\ d {2}/\ \ d {2}) /.* "," \\ 1 ", df $ URL)))' –
Ihre primäre Lösung funktionierte auch bei 40k-URLs sehr gut. 'urls = rep (c (" ht-p: //maschable.com/2014/09/19/shonda-rhimes-new- york-times/"," http: //mashable.com-2014/11/ 02/friendly-rabbers-snl-sketch/"), 20000)' 'datum = ymd (as.numerisch (gsub (" \\ D "," ", urls)))' –