Nachdem meine CPU-Auslastung plötzlich über 400% gestiegen ist, weil Bots meine Seite überschwemmt haben, habe ich eine robots.txt wie folgt erstellt und die Datei in meinem root abgelegt, zB "www.example .com/":BingBot & BaiduSpider respektieren nicht robots.txt
User-agent: *
Disallow:/
Jetzt respektiert Google diese Datei und es gibt kein weiteres Vorkommen in meiner Logdatei von Google. Allerdings BingBot & BaiduSpider immer noch in meinem Protokoll (und reichlich).
Da ich diese enorme Steigerung der CPU-Auslastung hatte & auch Bandwidth und mein Hosting-Provider war im Begriff, mein Konto zu suspendieren, löschte ich zuerst alle meine Seiten (falls es ein fieses Skript war), saubere Seiten hochgeladen, blockiert alle Bots über IP-Adresse in .htaccess & dann erstellt, dass die robots.txt-Datei.
Ich suchte überall, um zu bestätigen, dass ich die richtigen Schritte gemacht habe (habe die "ReWrite" -Option in .htaccess noch nicht ausprobiert).
Kann jemand bestätigen, dass das, was ich getan habe, sollte die Arbeit tun? (Seit ich dieses Unternehmen gegründet habe, ging meine CPU-Auslastung innerhalb von 6 Tagen auf 120% zurück, aber zumindest sollte das Blockieren der IP-Adressen die CPU-Auslastung auf 5 bis 10% senken).
leider robots.txt ist ein „Gentlemen Agreement“, wenn Sie den Zugriff auf eine Firewall haben, dann könnte man sie völlig blockieren, andere Leute haben das gleiche Problem, das Sie haben: http://www.webmasterworld.com/search_engine_spiders/4348357.htm (IP-Adressen in diesem Link zu verbieten) –
Hallo Harald, danke für den Link. Blockierte sie direkt über die IP-Adresse. Ich vermute deshalb, dass sie meine robots.txt- und Meta-Tags nicht lesen (ich habe mich geändert). CPU-Nutzung bis zu 51%, so jetzt lasse ich ein paar IP-Adressen durch, damit sie die Regeln robots.txt Regeln lesen können und Meta-Tag-Regeln und wird sehen, wie es geht.Thanks nochmal, Richard – Richard