Baiduよけ (たつをの ChangeLog)

Baiduよけ

2006-10-18-1 [WebTool][Tips]

中国の検索エンジン「百度」(Baidu)のクローラは元気が良すぎて困る。
今のところ利点はないのでクロールを拒否しておくことに。

そりゃまあ、百度から日本語での検索もできないことはないですけど、
そもそも日本語向けじゃないから精度は問題外。
- だめな例：パンク（ンはストップワードか？）
- 少しは見れる例：東京タワー

アクセスログに残っていたURL「网頁搜索幇助-禁止搜索引??収録的方法」
(http://www.baidu.com/search/robots.html) を見てみると、普通の
robots.txt の書き方が書いてあった。で、下記を robots.txt に追加。

User-agent: baiduspider
Disallow:

しかし、この Baiduspider、なかなか robots.txt を読みに来ない。
で、他のページはクロールしまくり。大丈夫か？

追記: 結局、アクセス禁止にしました。robots.txt も読まないわ、
CGIへのアクセスが1秒間に4回もあるわで、こりゃ共存は無理。
.htaccess に以下の記述を足しました。

order allow,deny
allow from all
deny from 60.28.17

追記061020: ヘルプ（网頁搜索幇助）の和訳がありました！
- SPHERICALMUSIC BLOG::baiduspiderのヘルプを訳してみた
  http://www.makou.com/index.php?e=840

追記061122: こんな記事があったんだった。

- グーグル覇権に挑む(4)中国のグーグル「百度（バイドゥ）」の実力
  【寄稿・前編】インターネット-グーグル覇権に挑む:IT-PLUS
  http://it.nikkei.co.jp/internet/special/search.aspx?n=MMIT05000008062006

追記:
404 Blog Not Found:クローラにしかとシカトしてもらう50の方法
http://blog.livedoor.jp/dankogai/archives/50672113.html

# mod_setenvif
BrowserMatchNoCase "baiduspider" evilua
# mod_access
Order allow,deny
Allow from all
Deny from env=evilua

この記事に言及しているこのブログ内の記事