中国の検索エンジン「百度」(Baidu)のクローラは元気が良すぎて困る。
今のところ利点はないのでクロールを拒否しておくことに。
そりゃまあ、百度から日本語での検索もできないことはないですけど、
そもそも日本語向けじゃないから精度は問題外。
- だめな例:パンク(ンはストップワードか?)
- 少しは見れる例:東京タワー
アクセスログに残っていたURL「网頁搜索幇助-禁止搜索引??収録的方法」
(http://www.baidu.com/search/robots.html) を見てみると、普通の
robots.txt の書き方が書いてあった。で、下記を robots.txt に追加。
しかし、この Baiduspider、なかなか robots.txt を読みに来ない。
で、他のページはクロールしまくり。大丈夫か?
追記: 結局、アクセス禁止にしました。robots.txt も読まないわ、
CGIへのアクセスが1秒間に4回もあるわで、こりゃ共存は無理。
.htaccess に以下の記述を足しました。
追記061020: ヘルプ(网頁搜索幇助)の和訳がありました!
- SPHERICALMUSIC BLOG::baiduspiderのヘルプを訳してみた
http://www.makou.com/index.php?e=840
追記061122: こんな記事があったんだった。
- グーグル覇権に挑む(4)中国のグーグル「百度(バイドゥ)」の実力
【寄稿・前編】インターネット-グーグル覇権に挑む:IT-PLUS
http://it.nikkei.co.jp/internet/special/search.aspx?n=MMIT05000008062006
追記:
404 Blog Not Found:クローラにしかとシカトしてもらう50の方法
http://blog.livedoor.jp/dankogai/archives/50672113.html
今のところ利点はないのでクロールを拒否しておくことに。
そりゃまあ、百度から日本語での検索もできないことはないですけど、
そもそも日本語向けじゃないから精度は問題外。
- だめな例:パンク(ンはストップワードか?)
- 少しは見れる例:東京タワー
アクセスログに残っていたURL「网頁搜索幇助-禁止搜索引??収録的方法」
(http://www.baidu.com/search/robots.html) を見てみると、普通の
robots.txt の書き方が書いてあった。で、下記を robots.txt に追加。
User-agent: baiduspider Disallow:
しかし、この Baiduspider、なかなか robots.txt を読みに来ない。
で、他のページはクロールしまくり。大丈夫か?
追記: 結局、アクセス禁止にしました。robots.txt も読まないわ、
CGIへのアクセスが1秒間に4回もあるわで、こりゃ共存は無理。
.htaccess に以下の記述を足しました。
order allow,deny allow from all deny from 60.28.17
追記061020: ヘルプ(网頁搜索幇助)の和訳がありました!
- SPHERICALMUSIC BLOG::baiduspiderのヘルプを訳してみた
http://www.makou.com/index.php?e=840
追記061122: こんな記事があったんだった。
- グーグル覇権に挑む(4)中国のグーグル「百度(バイドゥ)」の実力
【寄稿・前編】インターネット-グーグル覇権に挑む:IT-PLUS
http://it.nikkei.co.jp/internet/special/search.aspx?n=MMIT05000008062006
追記:
404 Blog Not Found:クローラにしかとシカトしてもらう50の方法
http://blog.livedoor.jp/dankogai/archives/50672113.html
# mod_setenvif
BrowserMatchNoCase "baiduspider" evilua
# mod_access
Order allow,deny
Allow from all
Deny from env=evilua