第183回NL研に行ってきた (たつをの ChangeLog)

第183回NL研に行ってきた

2008-01-22-1 [NLP]

第183回NL研に行ってきました。
昨日から二日間開催されているのですが、二日目だけ参加。

正式名称は：
- 情報処理学会第89回情報学基礎研究会第183回自然言語処理研究会
合同研究発表会
http://www.ipsj.or.jp/katsudou/sig/sighp/fi/cfp/20080121/

場所は竹橋の国立情報学研究所(NII)。
NII

いくつかメモ。

■9. blog分類のための半教師有り学習
○池田大介，高村大也，奥村学（東京工大）

各blogのスタイルや内容といった情報を利用した，
blog分類のための半教師あり学習手法を提案する．

半教師有り学習でのブログ記事の分類。
少量のラベル付き事例を大量のラベル無し事例で補う。
大量の二値分類器（パーセプロトンベース）をかけて、
その結果の実数値ベクトルを入力としたSVMで最終的な分類を行う。
二値分類器では、
同じブログ筆者によるものは同じ「個性」を持つと仮定し、
同じブログの複数記事を正解事例とする。
どちらのブログに似ているかを二値で判定する。
最終的な分類では、
プロフィールありのヤフーブログを正解事例とし、
性別、年齢の推定で実験。

■10. 検索エンジン基盤TSUBAKIを用いた
大規模ウェブ情報クラスタリングシステムの構築
○馬場康夫，新里圭司．黒橋禎夫（京都大）

検索エンジンTSUBAKIを使って検索されたページを，
ページに含まれる複合名詞に注目して自動分類するシステムについて述べる．

ページ中の複合名詞に注目してWeb検索結果を自動的にクラスタリングする。
既存システムが検索結果のスニペットを利用しているのに対して、
TSUBAKI では全文を使っている。とのこと。
Recall はあがるであろう。
- 情報爆発プロジェクト検索エンジン基盤 TSUBAKI
http://tsubaki.ixnlp.nii.ac.jp/index.cgi

■14. Web情報を利用した確率モデルによる略語推定
○村山紀文，奥村学（東京工大）

与えられた語に対する略語推定を行う，Noisy-Channel modelと
Webからの情報を組み合わせた統計モデルを提案する．

名寄せ問題の一つとしての略語推定を行う研究。
「プレイステーション３」→「プレステ３」、など。
ルールベースではなく確率モデル。2段階のモデル。
略語候補の絞り込みは表層文字列情報から静的モデル。
「P(チャーリー|チャリー)」といった感じ。
最適解選択はコンテキスト情報などからの動的モデル。