Ich bin ein kompletter Neuling für Web Scraping; Ich habe dieses kleine Projekt, einige Daten von COCA zu kratzen, aber ich weiß nicht einmal, wo ich anfangen soll. Es scheint, dass diese Webseite mit etwas Javascript erstellt wurde und ich frage mich, ob es ein Paket gibt, das es mir ermöglicht, damit zu interagieren? HierWie interagieren Sie mit einer JavaScript-Webseite mit Python?
ist einige Aufgaben, die ich mein Programm tun möchte:
- log in einem Konto verwendet wird;
- Wählen Sie eine Registerkarte (z. B. Suche, Diagramm, usw., siehe COCA);
- Geben Sie das Wort ein, das Sie im Lehrbuch suchen möchten.
- scrape die Suchergebnisse.
Alle Vorschläge würden sehr geschätzt werden.
PS: Im Idealfall sollte alles Backstage funktionieren (öffnet den Browser nicht).
Dort gibt es auch [Selenium] (http://www.seleniumhq.org/), das Sie auch verwenden können, um js auf Websites auszuführen. – Marcin
oder http://phantomjs.org – user1775888
@Marcin Danke für die Antwort, ja, ich schaute in Selen, aber ich möchte nicht, dass mein Programm den Browser öffnet. Im Idealfall läuft alles hinter den Kulissen. Irgendein Vorschlag? – Bayesric