Normalerweise mache ich Scraper in Ruby, aber entscheide dich in Perl. Und wenn ich mein Skript ausführe, sehe ich die Nummer der URL, die sich sehr, sehr langsam öffnet. Und ich danke, vielleicht sein Redirect-Problem? Oder vielleicht seine JS-URLs deshalb Problem. Und ich entscheide mich, ein Modul zu benutzen, das JS Webseiten öffnen kann. Also schaue ich zu cpan doc, nimm Code und versuche es zu starten. Nichts, kein Inhalt. Was mache ich falsch? Bitte korrigieren Sie mich. Oder rate mir vielleicht etwas. Ich versuche, Selenium zu verwenden, habe aber Probleme mit der Installation, siehe Fehler, wenn ich Selen in der Linux-Konsole laufen lasse.PERL WWW :: Scripter nicht arbeiten, nicht zurück Inhalt
use WWW::Scripter;
$w = new WWW::Scripter;
$w->use_plugin('JavaScript');
open(FH, "<links.csv");
while (<FH>) {
$url = $_;
if ($url !~ /http(s)/) {
$url = "http://".$url;
}
$w->get(url);
$html = $w->content;
print "=======\n";
print Dupmper $w->content;
print "=======\n";
}
Außerdem gibt es WWW :: Mechanize :: Firefox und :: Chrome. Sie steuern ein Browserfenster auf Ihrem Computer fern, so dass Sie X benötigen, wenn Sie mit Linux arbeiten. :: Chrome wurde vor einer Woche veröffentlicht und ist immer noch nicht sehr Feature-komplett. Es sollte einen Headless mehr unterstützen, wo Sie keinen Windowmanager brauchen. Sie können es verwenden, um den endgültigen Quellcode herauszuholen, nachdem JS-Sachen ausgeführt wurden und daran arbeiten. – simbabque
Wenn ich versuche, Mechanize Firefox zu verwenden, habe ich Fehler -^[[Aroot @ Antonow:/var/www/html/work8 # perl work8.pl Verbindung fehlgeschlagen, Problem beim Verbinden mit "localhost", Port 4242: Verbindung abgelehnt at /usr/local/share/perl/5.22.1/MozRepl/Client.pm Zeile 144 Ich sollte einige Daemon ausführen, bevor Sie dieses Modul verwenden? – rogersnest
Sie müssen ein Firefox-Addon installieren und es starten, damit das Perl-Modul mit Firefox kommunizieren kann. Es gibt einen Abschnitt zur Problembehandlung oder FAQ im Pod, in dem erklärt wird, wie das geht. Es denkt, es ist am Ende. Ich habe gerade keinen Computer, damit ich ihn nicht verlinken kann. Das Add-on heißt mozrepl – simbabque