アダルト情報検索サイトを運営し、すいません、私です…。ジサクジエンです…。
その検索キーのログを学習データとして用いて、
自動アダルトページフィルタリングをするぞ!
と言ってる人がいました。
質の高いデータを集めるには最適な方法かもしれませんね。(を)
ヤフーへのリンクのアンカーテキストとして「18歳未満」というのが多い、
という話を聞きました。
アダルトサイトの扉ページにある退場リンクのリンク先として、
ヤフーのトップページが習慣として使われているのが原因だそうです。
「18歳未満」でWeb検索してみると分かるのですが、ヤフー以外にグーグ
ルのトップページもリンク先として使われているみたいですね。(を)
マイナーな苗字をネット検索したら意味不明な日本語文が羅列されている
ページが大量に出てきた、という話を聞きました。
私も見てみたのですが、マルコフで自動生成したとおぼしき文章で構成
されたページでした。
かな漢字変換か形態素解析の辞書からランダムに単語を取ってきている
らしく、マイナーな語も他と同じ頻度で出現するみたいです。
意図は不明なのですが、たぶんスパムサイトの実験でしょうね。(を)