Ich werde eine Website für einige Informationen crawlen. Es ist ungefähr 170 000+ Seiten. Also, wie viele Anfragen kann ich machen? Ich werde HTML extrahieren und einige Informationen bekommen. Dies ist eine bereits sehr populäre Seite, also glaube ich nicht, dass sie sterben würde, wenn ich nur schnell über alle Seiten cruisen würde ... Einzig was mich nervös macht ist, dass ich nicht weiß, ob der Besitzer meine IP oder so etwas blockieren wird wenn du das tust? Ist das normal? Soll ich nur 5 Seiten/min laden? Dann wird es ewig dauern ... Ich will alle 24 Stunden neue Daten sehen.Wie schnell kann ich eine Website tatsächlich crawlen?
Danke für alle Antwort!
Ich habe 5 IP-Adressen. Und eine riesige Liste von Useragents, die ich zufällig auswähle. Denkst du, dass sie mich stoppen, wenn jede IP-Anfrage 1page/2s anfordert? – IQlessThan70