Wir haben ein Problem mit einer Reihe unserer Websites, wo Yahoo, Google, Yandex, Bing Ahrefs und andere alle die Website zur gleichen Zeit indexieren, die die Website tötet.Web Crawler überladen Website
Ich habe Fail2Ban konfiguriert, um die Quell-IPs zu blockieren, aber diese sind für immer ändern so nicht ideal. Ich habe auch versucht, robots.txt zu verwenden, aber das macht wenig Unterschied.
Wir haben versucht, die Seite hinter Cloudflare zu setzen, aber auch hier macht das wenig Unterschied und wir können nur die Quell-IPs blockieren.
Was kann ich noch tun?
Derzeit überwachen wir die Website mit Nagios, die Nginx neu startet, wenn die Website nicht mehr reagiert, aber das scheint alles andere als ideal zu sein.
Ubuntu Server nginx
Robots.txt-Datei ausgeführt wird, hier: -
User-agent: *
Disallow:/
hier im Falle der Veröffentlichung gibt es etwas gibt, dass ich unsere Entwickler zu bekommen, um zu versuchen.
Dank
Ich bin nicht sicher, dass Stack Overflow der richtige Ort ist, um das zu fragen. Unabhängig davon, posten Sie bitte Ihre /robots.txt hier. –
a) Ich denke, Serverfehler könnte die passendere Seite im Stapelaustausch sein b) Bist du sicher, dass sich die robots.txt im richtigen Verzeichnis befindet? zumindest google, yahoo und bing respektieren es. Google hat irgendwo in seinen Webmaster-Tools ein Test-Tool für die robots.txt – cypherabe