Ich habe ein Dataframe df mit einigen URLs. Es gibt Unterkategorien der Schrägstriche in den URLs ich mit stringr extrahieren möchten und str_extractFinden Muster in URL mit Stringr und Regex
Meine Daten sieht aus wie
Text URL
Hello www.facebook.com/group1/bla/exy/1234
Test www.facebook.com/group2/fssas/eda/1234
Text www.facebook.com/group-sdja/sdsds/adeds/23234
Texter www.facebook.com/blablabla/sdksds/sdsad
ich jetzt alles extrahieren möchten nach .com/und der nächste/
ich habe versucht, suburlpattern <- "^.com//{1,20}//$"
und df$categories <- str_extract(df$URL, suburlpattern)
Aber ich nur mit NA in df $ Kategorien am Ende
Irgendeine Idee, was ich hier falsch mache? Ist es mein Regex-Code?
Jede Hilfe wird sehr geschätzt! Vielen Dank im Voraus.
'^' in einem Regex-Muster bedeutet, dass es nur am Anfang der Zeichenfolge übereinstimmt. Da '.com' nicht am Anfang der URL steht, stimmt Ihr Muster nicht überein. Wahrscheinlich brauchst du das '^' nicht. – Amber
Danke Amber, aber es gibt mir leider immer noch nur NAs ... Irgendeine andere Idee? – rkuebler