第一回集合知シンポジウム(1日目)
2010-01-25-1
[EventReport][NLP]
1月25、26日開催の第一回集合知シンポジウムの一日目のメモ。
二日目のメモはこちらをどうぞ→[2010-01-26-1]
プログラム詳細はこちらをどうぞ:
- 研究会 開催プログラム - 2010-01-NLC
■類似した動作や状況を検索するための意味役割及び動詞語義付与システムの構築
竹内孔一・土山 傑・守屋将人・森安祐樹(岡山大)
単単語なら既存のウェブ検索エンジンでいいが、動作・状況を検索するには文章構造を考慮することが必要になる。
そのような集合知解析の基礎となるツールを目指す。
統計的アプローチでは難しいので(細かいところが正しくできない)、言語知識・文法知識を用いたルール規則ベースで行う。
複合名詞内係り受け、慣用句、主動詞、語義付与。
■Q&Aサイトの「質問−回答」における結束性 〜 省略の特徴分析 〜
田中弥生(国立国語研)
CGMにおける省略と隣接応答を分析。
質問と回答の結束性に貢献する省略をYahoo!知恵袋データで分析。
Q「Xとはなんですか?」A「Yです」→「XとはYです」が省略されている。
対話ではよく省略される。→QAサイトもよく省略されてた。→QAサイトも対話的だ。
著者から修正:
「照応 reference」→「指示 reference」,
「精度98%以上」→「精度99%以上」
■Webからのノウハウ検索手法
服部 元・武吉朋也・小野智弘・滝嶋康弘(KDDI研)
少ない手数で多くの情報を集めるための検索支援。
ノウハウ関連の語彙を用意し、それらを含む文書を優先する。
未読の情報を優先。
テーマ単語集合X、既読文書単語集合Y、ターゲット文書単語集合Z、
未読スコア= (X∩Z - Y∩Z) / (X∩Z)。
Yahoo!検索API使用。
■Q&Aサイトでのコミュニケーションを操作しようとするユーザの異なるカテゴリに投稿されたメッセージを用いた推定
石川尚季・西村 涼・渡辺靖彦・岡田至弘(龍谷大)
「複数のアカウントを取得して情報操作をしようとするユーザ」を推定する話。
複数のカテゴリへの投稿内容を用いる。
素性として形態素、文字N-gram、PrefixSpan パターンなど。
PrefixSpan はあまり効かないって話も。
Yahoo!知恵袋データ使用。
■[招待講演]観光情報の自動抽出とその音声翻訳への適用
竹澤寿幸(広島市大)
ブログから観光情報を抽出し、それを音声翻訳に利用することを目指す。
ブログから旅行記事を判定。系列ラベリング問題としてとく。
旅行で必要となる固有表現(観光名所、特産品等)を抽出・自動収拾。
安く作ることが重要(お金がたくさんあれば辞書買ったり作ってもらったりできるが)なのでCGM。
音声翻訳への適用は、実証実験進行中。
使用データ:Google の N-gram データ、Y!ブログ、旅行ブログポータル、などなど。
■個人適応型Splogフィルタリングシステムの実現に向けて 〜 Splog判定データセットの構築と機械学習を用いたシステムの実装 〜
芳中隆幸(東京電機大)・福原知宏(東大)・増田英孝(東京電機大)・中川裕志(東大)
Grayブログ(2chコピペブログなども)。
個人別Splog判定データセット作成。被験者50人にスパム判定してもらう。Grayブログを中心に。判定傾向も分析。被験者を階層クラスタリング。
データセット使って複数パターンの機械学習で最適なのを選択して判定。
提案する Light-weight Features (12次元)でよい感じ。
■ブログにおける評価情報の分類と体系化 〜 アプレイザル理論を用いて 〜
佐野大樹(国立国語研)
談話分析法の一つ Appraisal theory を使って、CGMにおける評判分析の新たな視点を提供する試み。
評価を表す表現には少なくとも3種類ある:態度評価、形勢評価、漸次評価。
態度評価の分類:
- 評価基準と評価対象の違いによる分類
-- 感情評価
-- 道徳評価
-- 観照評価
- 表現ストラテジー
-- 銘記
-- 発動
--- 駆り立て
--- 示唆
--- 選択提供
ブログ記事に対し、評価対象(主体、行動、事象)別に態度評価・表現ストラテジーで分類し分析。
修正情報:テクストB,L ⇔ テクストA,M,O
Yahoo!ブログを使用。
■情緒推定用パターン辞書における荒いレベルの情緒原因判断条件
滝川晃司・徳久雅人・村上仁一・池原 悟(鳥取大)
人物と事物の間の「接近」と「解離」の関係に着目した情緒原因判断条件属性を提案。
■信頼性評価によるインターネット集合知の検討
前原二郎・小林郁太郎(東大)
信頼性が保たれてるネット上の場所の成立条件について。
Wikipedia のような場を想定してシミュレーションモデルを組んで検証。
「正しい説明を書くユーザ vs. 間違ったことを書くユーザ」のシミュレーション。
■[招待講演]インターネット上の違法・有害情報検出技術の研究開発
松本一則(KDDI研)
いたちごっこの世界。
単純なキーワードマッチだけでなく高度な言語分析技術が必要。
くだけた表現の自動修正技術など。
二日目のメモはこちらをどうぞ→[2010-01-26-1]
プログラム詳細はこちらをどうぞ:
- 研究会 開催プログラム - 2010-01-NLC
■類似した動作や状況を検索するための意味役割及び動詞語義付与システムの構築
竹内孔一・土山 傑・守屋将人・森安祐樹(岡山大)
単単語なら既存のウェブ検索エンジンでいいが、動作・状況を検索するには文章構造を考慮することが必要になる。
そのような集合知解析の基礎となるツールを目指す。
統計的アプローチでは難しいので(細かいところが正しくできない)、言語知識・文法知識を用いたルール規則ベースで行う。
複合名詞内係り受け、慣用句、主動詞、語義付与。
■Q&Aサイトの「質問−回答」における結束性 〜 省略の特徴分析 〜
田中弥生(国立国語研)
CGMにおける省略と隣接応答を分析。
質問と回答の結束性に貢献する省略をYahoo!知恵袋データで分析。
Q「Xとはなんですか?」A「Yです」→「XとはYです」が省略されている。
対話ではよく省略される。→QAサイトもよく省略されてた。→QAサイトも対話的だ。
著者から修正:
「照応 reference」→「指示 reference」,
「精度98%以上」→「精度99%以上」
■Webからのノウハウ検索手法
服部 元・武吉朋也・小野智弘・滝嶋康弘(KDDI研)
少ない手数で多くの情報を集めるための検索支援。
ノウハウ関連の語彙を用意し、それらを含む文書を優先する。
未読の情報を優先。
テーマ単語集合X、既読文書単語集合Y、ターゲット文書単語集合Z、
未読スコア= (X∩Z - Y∩Z) / (X∩Z)。
Yahoo!検索API使用。
■Q&Aサイトでのコミュニケーションを操作しようとするユーザの異なるカテゴリに投稿されたメッセージを用いた推定
石川尚季・西村 涼・渡辺靖彦・岡田至弘(龍谷大)
「複数のアカウントを取得して情報操作をしようとするユーザ」を推定する話。
複数のカテゴリへの投稿内容を用いる。
素性として形態素、文字N-gram、PrefixSpan パターンなど。
PrefixSpan はあまり効かないって話も。
Yahoo!知恵袋データ使用。
■[招待講演]観光情報の自動抽出とその音声翻訳への適用
竹澤寿幸(広島市大)
ブログから観光情報を抽出し、それを音声翻訳に利用することを目指す。
ブログから旅行記事を判定。系列ラベリング問題としてとく。
旅行で必要となる固有表現(観光名所、特産品等)を抽出・自動収拾。
安く作ることが重要(お金がたくさんあれば辞書買ったり作ってもらったりできるが)なのでCGM。
音声翻訳への適用は、実証実験進行中。
使用データ:Google の N-gram データ、Y!ブログ、旅行ブログポータル、などなど。
■個人適応型Splogフィルタリングシステムの実現に向けて 〜 Splog判定データセットの構築と機械学習を用いたシステムの実装 〜
芳中隆幸(東京電機大)・福原知宏(東大)・増田英孝(東京電機大)・中川裕志(東大)
Grayブログ(2chコピペブログなども)。
個人別Splog判定データセット作成。被験者50人にスパム判定してもらう。Grayブログを中心に。判定傾向も分析。被験者を階層クラスタリング。
データセット使って複数パターンの機械学習で最適なのを選択して判定。
提案する Light-weight Features (12次元)でよい感じ。
■ブログにおける評価情報の分類と体系化 〜 アプレイザル理論を用いて 〜
佐野大樹(国立国語研)
談話分析法の一つ Appraisal theory を使って、CGMにおける評判分析の新たな視点を提供する試み。
評価を表す表現には少なくとも3種類ある:態度評価、形勢評価、漸次評価。
態度評価の分類:
- 評価基準と評価対象の違いによる分類
-- 感情評価
-- 道徳評価
-- 観照評価
- 表現ストラテジー
-- 銘記
-- 発動
--- 駆り立て
--- 示唆
--- 選択提供
ブログ記事に対し、評価対象(主体、行動、事象)別に態度評価・表現ストラテジーで分類し分析。
感情評価 | 観照評価 | 道徳評価 | |
駆り立て | ? | ? | ? |
示唆 | ? | ? | ? |
選択提供 | ? | ? | ? |
銘記 | ? | ? | ? |
修正情報:テクストB,L ⇔ テクストA,M,O
Yahoo!ブログを使用。
■情緒推定用パターン辞書における荒いレベルの情緒原因判断条件
滝川晃司・徳久雅人・村上仁一・池原 悟(鳥取大)
人物と事物の間の「接近」と「解離」の関係に着目した情緒原因判断条件属性を提案。
■信頼性評価によるインターネット集合知の検討
前原二郎・小林郁太郎(東大)
信頼性が保たれてるネット上の場所の成立条件について。
Wikipedia のような場を想定してシミュレーションモデルを組んで検証。
「正しい説明を書くユーザ vs. 間違ったことを書くユーザ」のシミュレーション。
■[招待講演]インターネット上の違法・有害情報検出技術の研究開発
松本一則(KDDI研)
いたちごっこの世界。
単純なキーワードマッチだけでなく高度な言語分析技術が必要。
くだけた表現の自動修正技術など。