ich webscrape bin versucht, mit Python, die Kommentare von einem BBC-Artikel: http://www.bbc.co.uk/news/education-37750489/comments?comments_page=1&initial_page_size=10&filter=none&sortBy=Created&sortOrder=Descending#Scraping Javascript geladen Seiten mit Python
Die Kommentare Modul ist in Javascript, mit Tasten für die nächsten Seiten. Allerdings kann ich keine AJAX-URL finden - es gibt einen Link von einem Blick auf die Netzwerkkonsole, aber das funktioniert nicht: https://ssl.live.bbc.co.uk/modules/comments/?siteId=newscommentsmodule&parentUri=http%3A%2F%2Fwww.bbc.co.uk%2Fnews%2Feducation-37750489%2Fcomments&forumId=__CPS__37750489
Allerdings möchte ich mehrere Seiten kratzen, aber wenn ich es versuche und ändere die 'page = x' auf der ersten Seite, es bringt mich nur auf die erste Seite.
Ich habe über die Verwendung von Selenium/Dryscape nachgedacht, aber ich bin nicht sicher, wie ich zu jeder der Seiten gelangen kann, um sie auszuführen.
"Ich habe an Selenium/Dryscape gedacht, aber ich bin mir nicht sicher, wie ich auf die einzelnen Seiten gelangen kann, um sie auszuführen." Kannst du das mehr erklären? Ich verstehe das Problem nicht. –
Ich muss einen Weg finden, um zu einer URL für jede der Kommentarseiten zu kommen, um ein Kratzen auszuführen. Ich dachte daran, einen Screen Scraper wie Selenium oder Dryscrape laufen zu lassen, aber ich brauche immer noch eine URL, um auf jede Seite zugreifen zu können, oder? – cstaff91
teilen Sie den Code, den Sie bisher versucht haben – thebadguy