Scrapy oder Selen oder Mechanize, um Web-Daten zu kratzen?

Ich möchte einige Daten von einer Website abschaben.Scrapy oder Selen oder Mechanize, um Web-Daten zu kratzen?

Grundsätzlich hat die Website einige tabellarische Anzeige und zeigt rund 50 Datensätze. Für mehr Datensätze muss der Benutzer auf eine Schaltfläche klicken, die einen Ajax-Anruf erhalten & die nächsten 50 Datensätze anzeigen.

Ich habe Vorkenntnisse von Selenium webdriver (Python). Ich kann das sehr schnell in Selen machen. Aber, Selenium ist mehr Art von Automatisierungstester und es ist sehr langsam.

Ich habe einige R & D und festgestellt, dass mit Scrapy oder Mechanize, kann ich auch das gleiche tun.

Sollte ich für Scrapy oder Mechanize oder Selenium gehen?

Quelle

2014-01-05 asit_dhal

Sie suchen wirklich nach Meinungen. Das ist nicht der Hauptzweck dieser Website. Gab es eine bestimmte Frage bezüglich dieser Optionen? –

Ich bin wirklich verwirrt, da ich die anderen beiden Technologien nicht kenne. –

Scraping-Sites mit Javascript kann sehr schwierig werden. Scrapy bietet eine bessere Funktionalität als Mechanize für das Crawlen und Parsen großer Datenmengen, aber in beiden Fällen müssen Sie einen Reverse Engineering durchführen, um herauszufinden, was die Sites tun (welche Anfrage löst die Schaltfläche aus, was sind die Parameter, die Cookies, die Payload) usw.) und reproduzieren das in Ihrem Code. – Rolando

Ich würde Ihnen empfehlen, mit einer Kombination von Mechanize und ExecJS (https://github.com/sstephenson/execjs) zu gehen, um alle Javascript-Anfragen auszuführen, auf die Sie stoßen könnten. Ich habe diese beiden Edelsteine schon seit einiger Zeit in Kombination benutzt und sie machen einen großartigen Job.

Sie sollten dies anstelle von Selenium wählen, weil es viel schneller ist, als wenn Sie die gesamte Seite in einem kopflosen Browser rendern müssen.

Quelle

2014-01-21 13:35:52 Severin

Definitiv würde ich Scrapy wählen. Wenn Sie mit JavaScript nicht umgehen können, können Sie es mit Scrapy + Splash versuchen. Scrapy ist bei weitem das schnellste Werkzeug für Web Scraping, das mir bekannt ist. Viel Glück!

Quelle

2017-09-22 19:00:01 Serpentr

Scrapy oder Selen oder Mechanize, um Web-Daten zu kratzen?

Antwort

Verwandte Themen