2012-07-10 10 views
5

Nachdem meine CPU-Auslastung plötzlich über 400% gestiegen ist, weil Bots meine Seite überschwemmt haben, habe ich eine robots.txt wie folgt erstellt und die Datei in meinem root abgelegt, zB "www.example .com/":BingBot & BaiduSpider respektieren nicht robots.txt

User-agent: * 
Disallow:/

Jetzt respektiert Google diese Datei und es gibt kein weiteres Vorkommen in meiner Logdatei von Google. Allerdings BingBot & BaiduSpider immer noch in meinem Protokoll (und reichlich).

Da ich diese enorme Steigerung der CPU-Auslastung hatte & auch Bandwidth und mein Hosting-Provider war im Begriff, mein Konto zu suspendieren, löschte ich zuerst alle meine Seiten (falls es ein fieses Skript war), saubere Seiten hochgeladen, blockiert alle Bots über IP-Adresse in .htaccess & dann erstellt, dass die robots.txt-Datei.

Ich suchte überall, um zu bestätigen, dass ich die richtigen Schritte gemacht habe (habe die "ReWrite" -Option in .htaccess noch nicht ausprobiert).

Kann jemand bestätigen, dass das, was ich getan habe, sollte die Arbeit tun? (Seit ich dieses Unternehmen gegründet habe, ging meine CPU-Auslastung innerhalb von 6 Tagen auf 120% zurück, aber zumindest sollte das Blockieren der IP-Adressen die CPU-Auslastung auf 5 bis 10% senken).

+1

leider robots.txt ist ein „Gentlemen Agreement“, wenn Sie den Zugriff auf eine Firewall haben, dann könnte man sie völlig blockieren, andere Leute haben das gleiche Problem, das Sie haben: http://www.webmasterworld.com/search_engine_spiders/4348357.htm (IP-Adressen in diesem Link zu verbieten) –

+0

Hallo Harald, danke für den Link. Blockierte sie direkt über die IP-Adresse. Ich vermute deshalb, dass sie meine robots.txt- und Meta-Tags nicht lesen (ich habe mich geändert). CPU-Nutzung bis zu 51%, so jetzt lasse ich ein paar IP-Adressen durch, damit sie die Regeln robots.txt Regeln lesen können und Meta-Tag-Regeln und wird sehen, wie es geht.Thanks nochmal, Richard – Richard

Antwort

2

Wenn dies legitime Spinnen von Bingbot und Baiduspider sind, dann sollten sie beide Ihre robots.txt-Datei als gegeben einstufen. Es kann jedoch einige Zeit dauern, bis sie aufgenommen werden und beginnen, darauf zu reagieren, wenn diese Dateien zuvor indiziert wurden - was wahrscheinlich der Fall ist.

Es gilt nicht in diesem Fall, aber es sollte beachtet werden, dass Baiduspiders Interpretation des robots.txt-Standards in mancher Hinsicht etwas anders ist als bei anderen Mainstream-Bots (z. B. Googlebot). Zum Beispiel, während der Standard den URL-Pfad auf dem Disallow: Datensatz einfach als Präfix definiert, wird der Baiduspider nur ganze Verzeichnis/Pfadnamen übereinstimmen. Wenn der Googlebot die URL http://example.com/private/ mit der Direktive Disallow: /priv übereinstimmt, wird der Baiduspider dies nicht tun.

Referenz:
http://www.baidu.com/search/robots_english.html

+0

Danke für die Info – Richard

+0

Hallo, danke für die info ... aber der link ist jetzt kaputt. Weiß jemand, wohin das verschoben wurde? – rosuav

+0

@rosuav Ich habe den Link aktualisiert (ob dies _exactly_ die gleiche Seite ist, bin ich mir nicht sicher?). Die Beispiele sind jedoch nicht eindeutig - und widersprüchlich. Unter der "Disallow" -Richtlinie heißt es: "Disallow:/help" verbietet ... '/ helpabc.html'", aber in der Tabelle der folgenden Beispiele bedeutet dies, dass "Disallow:/tmp" nicht "nicht zulassen" würde/tmphoho'! Sie geben auch das gleiche Beispiel zweimal ('Disallow:/tmp' und URL'/tmp') und in einem stimmt es überein und das andere nicht !? (Das ergibt wirklich keinen Sinn, also ist vielleicht etwas in der Übersetzung verloren gegangen !?) – MrWhite

Verwandte Themen