第二回集合知シンポジウム(1日目)
2011-01-27-1
[EventReport][NLP]
1月27、28日開催の第二回集合知シンポジウムの一日目のメモ。
二日目のメモはこちらをどうぞ→[2011-01-28-1]
プログラム詳細はこちらをどうぞ:
- 研究会 開催プログラム - 2011-01-NLC
■Q&Aサイトにおいて1つの質問に対して複数のアカウントを用いて複数の回答を投稿するユーザの検出
石川尚季・梅本顕嗣・西村 涼・渡辺靖彦・岡田至弘(龍谷大)
複数のアカウントで同じ回答を繰り返すユーザの特定が目的。怪しい投稿を検出して文体の類似判定を行った特定する。国立情報学研究所経由のYahoo!知恵袋データが対象。
二項検定で異常投稿を検出し(step 1)、機械学習と二項検定で文体類似判定(step 2)。有意水準0.005。素性は形態素や3gramやprefixspanによるパターンなど。maxent(最大エントロピー法による学習器)を使用。
804件の異常投稿が検出された。政治社会問題カテゴリでは検出された異常投稿20件のうち8件がなりすましとの判定。
#答えがないタスクなので評価が難しい。評価が小粒になってしまう。
#IDの連続性、投稿時間なども素性として使うのが良いか。
#運営側からすると「ネット接続情報(IPアドレスなど)を使えばいいじゃん」となりそうだ。
■回答の投稿から質問解決までの時間に着目したQ&Aサイトにおける評価を操作しようとするユーザの検出
梅本顕嗣・石川尚季・西村 涼・渡辺靖彦・岡田至弘(龍谷大)
自作自演で高評価を得るようなユーザを検出するのが目的。データはYahoo!知恵袋。
ベストアンサーの選定で自作自演するユーザがいる。質問と回答までの時間に着目。全ベストアンサーの1%が87秒で決定されている。これらを対象に怪しいユーザを探す。具体的にはユーザAがBにばかり短時間でベストアンサーを与えてないかを調べる。有意水準0.000005で検出。
#これも「ネット接続情報を使えばいいじゃん」となりそう。応用先として何か説得力のある例があれば良いが。
■Yahoo!知恵袋における質問の修辞ユニット分析 〜 脱文脈化-文脈化の程度による分類 〜
田中弥生・佐野大樹(国立国語研)
修辞ユニット分析:発話機能、中核要素、現象定位の3つを認定して修辞機能を特定する。脱文脈化の程度(脱文脈化指数)を知ることができる。
- 発話機能
-- 提言:品物・行為の交換。「お塩を取っていただけますか?」
-- 命題:情報の交換。「おいしいお塩を教えて頂けますか?」
- 中核要素
-- 状況内要素
--- 参加要素:「どんなアイテム使ってますか?」「あなたは〜」「みなさんは〜」
--- 非参加要素:投稿者の手元にあるものなどが該当。「これって良いほうですか?」「おススメのものありますか?」
-- 状況外要素:「安いサイトってあるんですか?」
-- 定言要素:「化粧水って何のためにあるんですか?」
- 現象定位:出来事が起こった時。
-- 現在(習慣的、恒久)
-- 現在(非習慣的・一時的)
-- 過去
-- 未来(意図的):「あなたならやってみますか?」
-- 未来(非意図的):「〜の福袋は出るのでしょうか?」(「出すのでしょうか?」は意図的)
-- 仮定:「(もし使ったら)毛穴が目立たなくなりますか?」
これらの組み合わせごとに指数が振られている(詳細は図)。大きいほど脱文脈化の程度が高い。
- 文脈化高い:おすすめの化粧水ある?
- 文脈化低い:化粧水ってそもそも何のため?
Yahoo!知恵袋の「コスメ、美容」カテゴリの質問の脱文脈化を分析。QAサイト利用の目的などが分かる。
#判別用言語表現リストの作成を検討中とのことで期待大。
■日本語における評価表現の分類体系 〜 アプレイザル理論をベースに 〜
佐野大樹(国立国語研)
評価表現には3つある。態度表現(よい・わるい)、程度表現(とても〜・〜すぎる)、形成表現(〜かもしれません)。態度表現を対象とし日本語表現を分類した。
この体系に基づいた「日本語アプレイザル評価表現辞書(態度表現編)」が2011年に出る予定。岩波国語辞典の語義IDで他のデータとの対応が取れる(ただし出せるかどうかは未定)。
#データ連携は実現すれば嬉しい。
■ブログを用いた絵文字の感情ベクトル作成手法
青木 翔・内田 理(東海大)
絵文字ごとに感情語のタームベクターを作成する。絵文字と感情語の共起情報を利用(同じ文内での共起)。データはアメブロの有名人ブログのテキスト。
#ツイッターなどのテキストストリームに適用すると面白そう。
■意味理解に基づくテキストマイニングシステムSTM
原田 実・石田 涼・山西和広・神田由樹(青学大)
テキストマイニングツールの解説。デモも交えて。
類似文書クラスタに対して、クロス分析、コレスポンディング分析、時系列分析、因果関係分析。感情分析、評判分析、質問応答分析も。
■ディスカッションセッション「集合知への期待と可能性」
パネリスト:
- 唐沢かおり / 東京大学 大学院人文社会系研究科教授
-- 「社会的認知の視点から」
- 戸田山和久 / 名古屋大学 情報文化学部社会システム情報学科教授
-- 「科学哲学の視点から」
- 山口裕幸 / 九州大学 人間環境学研究院教授
-- 「集団力学・組織心理学の視点から」
- 竹内孔一 / 岡山大学 大学院自然科学研究科講師
-- 「言語処理ツール提供の観点から」
- 那須川哲哉 / 日本アイ・ビー・エム株式会社 東京基礎研究所シニア・リサーチャー
-- 司会
キーワード的なものだけメモ:
- か:社会的リアリティ、行動との関係、相互作用の場
- と:科学は集団的・社会的な営み、認識論的依存、科学者集団プラス人工物(DB)
- や:集団(組織)による記憶(情報・知識)の分有システム、集合知といっても実際の集団では創造性を阻害することが多い
- た:集合知を分析するためのまとまったデータがやっと揃うようになってきた
二日目のメモはこちらをどうぞ→[2011-01-28-1]
プログラム詳細はこちらをどうぞ:
- 研究会 開催プログラム - 2011-01-NLC
■Q&Aサイトにおいて1つの質問に対して複数のアカウントを用いて複数の回答を投稿するユーザの検出
石川尚季・梅本顕嗣・西村 涼・渡辺靖彦・岡田至弘(龍谷大)
複数のアカウントで同じ回答を繰り返すユーザの特定が目的。怪しい投稿を検出して文体の類似判定を行った特定する。国立情報学研究所経由のYahoo!知恵袋データが対象。
二項検定で異常投稿を検出し(step 1)、機械学習と二項検定で文体類似判定(step 2)。有意水準0.005。素性は形態素や3gramやprefixspanによるパターンなど。maxent(最大エントロピー法による学習器)を使用。
804件の異常投稿が検出された。政治社会問題カテゴリでは検出された異常投稿20件のうち8件がなりすましとの判定。
#答えがないタスクなので評価が難しい。評価が小粒になってしまう。
#IDの連続性、投稿時間なども素性として使うのが良いか。
#運営側からすると「ネット接続情報(IPアドレスなど)を使えばいいじゃん」となりそうだ。
■回答の投稿から質問解決までの時間に着目したQ&Aサイトにおける評価を操作しようとするユーザの検出
梅本顕嗣・石川尚季・西村 涼・渡辺靖彦・岡田至弘(龍谷大)
自作自演で高評価を得るようなユーザを検出するのが目的。データはYahoo!知恵袋。
ベストアンサーの選定で自作自演するユーザがいる。質問と回答までの時間に着目。全ベストアンサーの1%が87秒で決定されている。これらを対象に怪しいユーザを探す。具体的にはユーザAがBにばかり短時間でベストアンサーを与えてないかを調べる。有意水準0.000005で検出。
#これも「ネット接続情報を使えばいいじゃん」となりそう。応用先として何か説得力のある例があれば良いが。
■Yahoo!知恵袋における質問の修辞ユニット分析 〜 脱文脈化-文脈化の程度による分類 〜
田中弥生・佐野大樹(国立国語研)
修辞ユニット分析:発話機能、中核要素、現象定位の3つを認定して修辞機能を特定する。脱文脈化の程度(脱文脈化指数)を知ることができる。
- 発話機能
-- 提言:品物・行為の交換。「お塩を取っていただけますか?」
-- 命題:情報の交換。「おいしいお塩を教えて頂けますか?」
- 中核要素
-- 状況内要素
--- 参加要素:「どんなアイテム使ってますか?」「あなたは〜」「みなさんは〜」
--- 非参加要素:投稿者の手元にあるものなどが該当。「これって良いほうですか?」「おススメのものありますか?」
-- 状況外要素:「安いサイトってあるんですか?」
-- 定言要素:「化粧水って何のためにあるんですか?」
- 現象定位:出来事が起こった時。
-- 現在(習慣的、恒久)
-- 現在(非習慣的・一時的)
-- 過去
-- 未来(意図的):「あなたならやってみますか?」
-- 未来(非意図的):「〜の福袋は出るのでしょうか?」(「出すのでしょうか?」は意図的)
-- 仮定:「(もし使ったら)毛穴が目立たなくなりますか?」
これらの組み合わせごとに指数が振られている(詳細は図)。大きいほど脱文脈化の程度が高い。
- 文脈化高い:おすすめの化粧水ある?
- 文脈化低い:化粧水ってそもそも何のため?
Yahoo!知恵袋の「コスメ、美容」カテゴリの質問の脱文脈化を分析。QAサイト利用の目的などが分かる。
#判別用言語表現リストの作成を検討中とのことで期待大。
■日本語における評価表現の分類体系 〜 アプレイザル理論をベースに 〜
佐野大樹(国立国語研)
評価表現には3つある。態度表現(よい・わるい)、程度表現(とても〜・〜すぎる)、形成表現(〜かもしれません)。態度表現を対象とし日本語表現を分類した。
この体系に基づいた「日本語アプレイザル評価表現辞書(態度表現編)」が2011年に出る予定。岩波国語辞典の語義IDで他のデータとの対応が取れる(ただし出せるかどうかは未定)。
#データ連携は実現すれば嬉しい。
■ブログを用いた絵文字の感情ベクトル作成手法
青木 翔・内田 理(東海大)
絵文字ごとに感情語のタームベクターを作成する。絵文字と感情語の共起情報を利用(同じ文内での共起)。データはアメブロの有名人ブログのテキスト。
#ツイッターなどのテキストストリームに適用すると面白そう。
■意味理解に基づくテキストマイニングシステムSTM
原田 実・石田 涼・山西和広・神田由樹(青学大)
テキストマイニングツールの解説。デモも交えて。
類似文書クラスタに対して、クロス分析、コレスポンディング分析、時系列分析、因果関係分析。感情分析、評判分析、質問応答分析も。
■ディスカッションセッション「集合知への期待と可能性」
パネリスト:
- 唐沢かおり / 東京大学 大学院人文社会系研究科教授
-- 「社会的認知の視点から」
- 戸田山和久 / 名古屋大学 情報文化学部社会システム情報学科教授
-- 「科学哲学の視点から」
- 山口裕幸 / 九州大学 人間環境学研究院教授
-- 「集団力学・組織心理学の視点から」
- 竹内孔一 / 岡山大学 大学院自然科学研究科講師
-- 「言語処理ツール提供の観点から」
- 那須川哲哉 / 日本アイ・ビー・エム株式会社 東京基礎研究所シニア・リサーチャー
-- 司会
キーワード的なものだけメモ:
- か:社会的リアリティ、行動との関係、相互作用の場
- と:科学は集団的・社会的な営み、認識論的依存、科学者集団プラス人工物(DB)
- や:集団(組織)による記憶(情報・知識)の分有システム、集合知といっても実際の集団では創造性を阻害することが多い
- た:集合知を分析するためのまとまったデータがやっと揃うようになってきた
この記事に言及しているこのブログ内の記事