2016-05-03 4 views
0

Ich habe eine Webseite „http://www.jabong.com/playdate-Off-White-Casual-Top-1342500.html?pos=1“ und ich bin in der Lage den HTML-Code, es zu bekommen ... aber ich brauche bestimmte Informationen ... aus der oben genannten Seite zu extrahieren:Eine bestimmte Information aus einem HTML-Code einer Webseite extrahieren? Ich müsste die folgenden Informationen

Typ : Casual Tops, Stoff: Baumwolle, Ärmel: Halbarm, Ausschnitt: Rundhalsausschnitt, Passform: Regular, Waschpflege: Handwäsche, Schonende Waschmittel verwenden, Gürtel/Broschen vor dem Waschen entfernen, Farbe: Cremefarben, Stoffdetails: 95/5 BaumwolleLycra, Stil: Grafik, SKU: PL527KA99JYQINDFAS

+0

Sie benötigen ein Web-Scraping-Paket wie [rvest] (https://github.com/hadley/rvest). – alistaire

+0

@alistaire: Du hast die Frage nicht richtig verstanden. Ich kann den kompletten HTML-Code lesen ... Ich muss nur bestimmte Informationen extrahieren ... also denke ich, dass das Stringr-Paket helfen wird ... aber ich brauche einen Code, der das extrahieren kann insbesondere info..danke –

+1

'rvest' kann kratzen, ja, aber die meisten Scraping ist Parsing, was Sie tun müssen. Parsen Sie HTML nicht mit Regex; Es ist eine schlechte Idee. – alistaire

Antwort

2

Sie benötigen einen HTML Schaber/Parser wie rvest:

library(rvest) 

url <- 'http://www.jabong.com/playdate-Off-White-Casual-Top-1342500.html?pos=1' 

# get HTML, select list node with the information 
page <- url %>% read_html() %>% html_node('.prod-main-wrapper') 

# select the nodes within the list of each type, and get the text inside 
variable <- page %>% html_nodes('label') %>% html_text() 
value <- page %>% html_nodes('span') %>% html_text() 

# put the text in a nice data.frame 
data.frame(variable, value) 
#   variable                value 
# 1   Type               Casual Tops 
# 2   Fabric                Cotton 
# 3   Sleeves              Half Sleeves 
# 4   Neck               Round neck 
# 5    Fit                Regular 
# 6  Wash Care Hand Wash, Use Mild Detergents, Remove Belts/Broaches Before Wash 
# 7   Color               Off White 
# 8 Fabric Details             95/5 Cotton Lycra 
# 9   Style                Graphic 
# 10   SKU             PL527KA99JYQINDFAS 
# 11 Authorization   Playdate authorized online sales partner. View Certificate 
Verwandte Themen