Yasazon が Googlebot から連続アクセスを受けてて困った問題 (たつをの ChangeLog)

Yasazon が Googlebot から連続アクセスを受けてて困った問題

2009-10-18-3

さくらの500円サーバのディスク容量があふれてた。
Yasazon の asin ページのキャッシュがたまりすぎていたのが原因。
cron で一日一回古いのを削除しているんだけど間に合ってない。

ログ見てみると「またこいつだよ……」な Googlebot だった。
こいつは robots.txt の Crawl-delay (5に設定してた) を無視するからなあ(ref. [2007-03-21-1])。

crawl-66-249-68-70.googlebot.com - - [17/Oct/2009:00:02:03 +0900] ...
crawl-66-249-68-70.googlebot.com - - [17/Oct/2009:00:02:02 +0900] ...
crawl-66-249-68-70.googlebot.com - - [17/Oct/2009:00:02:01 +0900] ...
crawl-66-249-68-70.googlebot.com - - [17/Oct/2009:00:01:59 +0900] ...
crawl-66-249-68-70.googlebot.com - - [17/Oct/2009:00:01:57 +0900] ...
crawl-66-249-68-70.googlebot.com - - [17/Oct/2009:00:01:57 +0900] ...
crawl-66-249-68-70.googlebot.com - - [17/Oct/2009:00:01:54 +0900] ...

そもそも、Google の検索結果にはヤサゾンのページは出てこないんだよね。スパムサイトと判定されてるんだろうけど。

いっそのこと Googlebot をアクセス拒否しようかと思って、
念のため Google Analytics を確認してみると、
なんと10月頭からグーグル検索結果からのアクセスが増えている！

ううむ。
SEO的には嬉しいけど、サーバ的には困る。

どうせまたGoogle検索からのアクセスはゼロになるだろうから、それまではアクセス拒否は待ってみることにした。
とりあえずキャッシュ削除 cron の作動頻度を増やすことにした。

あと、ランダムではじくやつも仕掛けた。
こういうやつね：

use CGI;
...
if ($q->user_agent() =~ /googlebot/i and rand(1) < 0.05) {
    print qq(Status: 503 Server Temporary Unavailable\n\n);
    exit;
}

(ref. [を] Perl、PHPでGooglebotを一定の確率ではじく[2007-05-01-2])

とかやった後に、昔 Yasazon を Google webmaster tools に登録してたことを思い出した。
ということで、Crawl rate を調整して15秒に1回のアクセスにしてみた。
どうなるかな。