Ich arbeite an einem Projekt, wo ich eine Seite so kratzen möchte, um die Stadt der Herkunft zu bekommen. Ich versuchte, den CSS-Selektor zu verwenden:“.type-12 ~ .type-12 + .type-12" Jedoch habe ich den Text in R. nichtnicht scraping die HTML-Quelle, aber die eigentliche Website
Link erhalten: https://www.kickstarter.com/projects/1141096871/support-ctrl-shft/description
I rvest verwenden und und die Funktion read_html.
Es scheint jedoch, dass die Quelle einige Skripts enthält. Gibt es eine Möglichkeit, die Website zu scrappen, nachdem die Skripte ihre Ergebnisse zurückgegeben haben (wie Sie es mit einem Browser sehen)?
PS ich ähnliche Fragen gesucht, aber die Antwort haben finden ..
Code:
main.names <- read_html(x = paste0("https://www.kickstarter.com/projects/1141096871/support-ctrl-shft/description")) # feed `main.page` to the next step
names1 <- main.names %>% # feed `main.page` to the next step
html_nodes("div.mb0-md") %>% # get the CSS nodes
html_text()# extract the text
Diese API liefert keine Informationen über das Herkunftsland oder andere Informationen über das Projekt. Oder fehlt mir etwas? Die einzigen Möglichkeiten, die ich sehe, sind im Zusammenhang mit Aktionen oder Wartungsupdates. – nemja
http://syntaxi.net/2013/03/24/let-s-explore-kickstarter-s-api/ https://github.com/markolson/kickscraper Und wieder. Welche Werkzeuge verwendest du? Mit BeatifulSoup (sein Python nicht R) konnte ich die Infos bekommen. – hansTheFranz
Ich benutze R: main.names <- read_html (x = paste0 ("https://www.kickstarter.com/projects/1141096871/support-ctrl-shft/description")) # feed 'main.page' zu der nächste Schritt names1 <- main.names%>% # feed 'main.page' zum nächsten Schritt html_nodes (" div.mb0-md ")%>% # Holen Sie sich die CSS-Knoten html_text() # extrahieren Sie die Filmnamen (Siehe bearbeiten) – nemja