Ich möchte einen Web-Crawler entwickeln, der von einer Seed-URL startet und dann 100 html-Seiten durchsucht, die zur selben Domäne gehören wie die Seed-URL sowie einen Datensatz der durchsuchten URLs enthält, die Duplikate vermeiden. Ich habe folgendes geschrieben, aber der Wert von $ url_count scheint nicht inkrementiert zu sein, und die abgerufenen URLs enthalten sogar Links von anderen Domains. Wie löse ich das? Hier habe ich stackoverflow.com als meine Start-URL eingefügt.Web-Crawler mit Perl
use strict;
use warnings;
use LWP::Simple;
use LWP::UserAgent;
use HTTP::Request;
use HTTP::Response;
##open file to store links
open my $file1,">>", ("extracted_links.txt");
select($file1);
##starting URL
my @urls = 'http://stackoverflow.com/';
my $browser = LWP::UserAgent->new('IE 6');
$browser->timeout(10);
my %visited;
my $url_count = 0;
while (@urls)
{
my $url = shift @urls;
if (exists $visited{$url}) ##check if URL already exists
{
next;
}
else
{
$url_count++;
}
my $request = HTTP::Request->new(GET => $url);
my $response = $browser->request($request);
if ($response->is_error())
{
printf "%s\n", $response->status_line;
}
else
{
my $contents = $response->content();
$visited{$url} = 1;
@lines = split(/\n/,$contents);
foreach $line(@lines)
{
$line =~ [email protected](((http\:\/\/)|(www\.))([a-z]|[A-Z]|[0-9]|[/.]|[~]|[-_]|[()])*[^'">])@g;
print "$1\n";
push @urls, $$line[2];
}
sleep 60;
if ($visited{$url} == 100)
{
last;
}
}
}
close $file1;
diesen Link finden Sie in den Root-Domain-Namen der Links zu erhalten und dass auf die Stammdomäne Ihrer ursprünglichen URL vergleichen: http://stackoverflow.com/questions/15627892/perl-regex-grab-everyting- till/15628401 # 15628401 – imran
Da Sie URLs und Links extrahieren werden, verwenden Sie WWW :: Mechanize, das sich um einen Großteil der Plackerei kümmert. –
Ich kann das nicht verwenden, weil ich die Codes auf einem Server ausführen soll, der dieses Paket nicht hat, und ich habe nicht die Erlaubnis, sie zu installieren. – user2154731