古い記事
ランダムジャンプ
新しい記事
言語情報処理ポータル (http://nlp.kuee.kyoto-u.ac.jp/NLP_Portal/)
の日替わりコラム。私の担当の最近の3回分を公開。
前回の公開は[2006-08-24-1]

■JEITAコラム(39) 2006/10/2:
アダルト情報検索サイトを運営し、
その検索キーのログを学習データとして用いて、
自動アダルトページフィルタリングをするぞ!
と言ってる人がいました。
質の高いデータを集めるには最適な方法かもしれませんね。(を)
すいません、私です…。ジサクジエンです…。
Asamasearch の「Adult Only」オプションのときのログが有望なのです…。

■JEITAコラム(38) 2006/9/15:
ヤフーへのリンクのアンカーテキストとして「18歳未満」というのが多い、
という話を聞きました。
アダルトサイトの扉ページにある退場リンクのリンク先として、
ヤフーのトップページが習慣として使われているのが原因だそうです。
「18歳未満」でWeb検索してみると分かるのですが、ヤフー以外にグーグ
ルのトップページもリンク先として使われているみたいですね。(を)

■JEITAコラム(37) 2006/9/1:
マイナーな苗字をネット検索したら意味不明な日本語文が羅列されている
ページが大量に出てきた、という話を聞きました。
私も見てみたのですが、マルコフで自動生成したとおぼしき文章で構成
されたページでした。
かな漢字変換か形態素解析の辞書からランダムに単語を取ってきている
らしく、マイナーな語も他と同じ頻度で出現するみたいです。
意図は不明なのですが、たぶんスパムサイトの実験でしょうね。(を)
この記事に言及しているこのブログ内の記事