第二回集合知シンポジウム(2日目)
2011-01-28-1
[EventReport][NLP]
1月27、28日開催の第二回集合知シンポジウムの二日目のメモ。
一日目のメモはこちらをどうぞ→[2011-01-27-1]
プログラム詳細はこちらをどうぞ:
- 研究会 開催プログラム - 2011-01-NLC
■共起情報とSNSユーザー行動情報を用いた広告提示システムについて
高瀬友彬・杉浦秀幸・北 栄輔(名大)
確率ベースで広告選択。
商品データからジャンル別辞書を作成しておき、ユーザのプロフィール・日記などを解析してマッチング。
#この研究では、ユーザ行動情報=ユーザの書き込み。位置とか購買とか閲覧履歴などはなし。
■マイクロブログのジオタグを用いたユーザの行動パターンの推定に関する研究
酒巻智宏・岩井将行・瀬崎 薫(東大)
位置情報(Twitterのジオタグ)でのクラスタリング(群平均法)と投稿内容からの特徴後抽出(TF-IDF)により、ユーザの行動範囲と行動パターンを推定する。
どこで「起きた」か、どこで「勉強」したか、どこで「飲み会」か、など。
■実世界のセンサーとしてのTwitterの可能性
高橋哲朗(富士通研)・野田雄也(ニフティ)
「花粉症」に関するTwitter投稿を集めて地図に可視化するサービスを公開。そこで得られたデータから実際の花粉の飛散量との関係を分析。
投稿内容の「花粉症可能性レベル」を設定。「花粉症になりたくない」は低い。「花粉症になった」は高い。人出で分類して機械学習。
実際の飛散量(環境省の公開データ)と花粉症投稿を比較。投稿の多い都道府県については高い相関関係が見られた。ただし関西は相関が低い。謎。
■調整課題における記号コミュニケーションシステムの形成実験
金野武司・森田純哉・橋本 敬(北陸先端大)
図形記号のみからなるメッセージの送受信を通じて調整課題を解く実験で、
二者間のコミュニケーションシステムの形成過程をとらえる試み。
被験者二人は別々の部屋でウェブ越しに記号の羅列で「対話」。
■ブログ記事に基づく概念属性の揺らぎ抽出
堀内要介・内田 理(東海大)
概念ベース(単語とその概念を表す属性のデータベース)の属性の揺らぎをブログから抽出する。タグの付与されたブログ記事を形態素解析して出現名詞を概念語とした(タグを属性とみなす)。時間軸で属性の変化を観察。
■述語項構造解析による検索対象細分化を用いた自然文検索
山田浩之・ジェプカ ラファウ・荒木健治(北大)
自然言語文での検索が目的。
係り受け解析して項構造によるスコア付与を行ったクエリで検索。特にガ格に着目。
■Web検索を用いた不正確用例抽出手法の提案と評価
福島 拓・吉野 孝(和歌山大)
多言語用例対訳に含まれる不正確なものを見つけるのが目的。
医療分野の用例対訳をウェブ上(TackPad)で収集しているが、間違いが多いので自動で見つけたい。N-gram分割してそれらでウェブ検索。ヒット件数を利用。
ポリシー:言語依存の技術(機械翻訳、形態素解析など)は利用しない。それらの存在しない言語があるので。
■生物医学文献検索におけるソーシャルタグと統制語彙との比較
秦 華偉・関 和広・上原邦昭(神戸大)
生物医学分野の文献に付与されている MeSH 索引語(専門家が付与)と学術論文を対象としたソーシャルブックマークサービス CiteULike のタグ(ユーザが付与)を比較。
クラスタの凝集性(cohesion)、分離性(separation)を比較。
インデックスキーとして使った場合の検索精度を比較。
■Webサイトの構造情報を集約する集合知データベースの構築
江渡浩一郎・沢田洋平(産総研)
ウェブサイトでのページの自動継ぎ足しができる AutoPagerize。便利だがウェブサイトのサイト構造が分からないと使えない。そのための必要情報をXPathで収集した集合知データベース「Wedata」を作って運用。
#新しいタイプの集合知。
一日目のメモはこちらをどうぞ→[2011-01-27-1]
プログラム詳細はこちらをどうぞ:
- 研究会 開催プログラム - 2011-01-NLC
■共起情報とSNSユーザー行動情報を用いた広告提示システムについて
高瀬友彬・杉浦秀幸・北 栄輔(名大)
確率ベースで広告選択。
商品データからジャンル別辞書を作成しておき、ユーザのプロフィール・日記などを解析してマッチング。
#この研究では、ユーザ行動情報=ユーザの書き込み。位置とか購買とか閲覧履歴などはなし。
■マイクロブログのジオタグを用いたユーザの行動パターンの推定に関する研究
酒巻智宏・岩井将行・瀬崎 薫(東大)
位置情報(Twitterのジオタグ)でのクラスタリング(群平均法)と投稿内容からの特徴後抽出(TF-IDF)により、ユーザの行動範囲と行動パターンを推定する。
どこで「起きた」か、どこで「勉強」したか、どこで「飲み会」か、など。
■実世界のセンサーとしてのTwitterの可能性
高橋哲朗(富士通研)・野田雄也(ニフティ)
「花粉症」に関するTwitter投稿を集めて地図に可視化するサービスを公開。そこで得られたデータから実際の花粉の飛散量との関係を分析。
投稿内容の「花粉症可能性レベル」を設定。「花粉症になりたくない」は低い。「花粉症になった」は高い。人出で分類して機械学習。
実際の飛散量(環境省の公開データ)と花粉症投稿を比較。投稿の多い都道府県については高い相関関係が見られた。ただし関西は相関が低い。謎。
■調整課題における記号コミュニケーションシステムの形成実験
金野武司・森田純哉・橋本 敬(北陸先端大)
図形記号のみからなるメッセージの送受信を通じて調整課題を解く実験で、
二者間のコミュニケーションシステムの形成過程をとらえる試み。
被験者二人は別々の部屋でウェブ越しに記号の羅列で「対話」。
■ブログ記事に基づく概念属性の揺らぎ抽出
堀内要介・内田 理(東海大)
概念ベース(単語とその概念を表す属性のデータベース)の属性の揺らぎをブログから抽出する。タグの付与されたブログ記事を形態素解析して出現名詞を概念語とした(タグを属性とみなす)。時間軸で属性の変化を観察。
■述語項構造解析による検索対象細分化を用いた自然文検索
山田浩之・ジェプカ ラファウ・荒木健治(北大)
自然言語文での検索が目的。
係り受け解析して項構造によるスコア付与を行ったクエリで検索。特にガ格に着目。
■Web検索を用いた不正確用例抽出手法の提案と評価
福島 拓・吉野 孝(和歌山大)
多言語用例対訳に含まれる不正確なものを見つけるのが目的。
医療分野の用例対訳をウェブ上(TackPad)で収集しているが、間違いが多いので自動で見つけたい。N-gram分割してそれらでウェブ検索。ヒット件数を利用。
ポリシー:言語依存の技術(機械翻訳、形態素解析など)は利用しない。それらの存在しない言語があるので。
■生物医学文献検索におけるソーシャルタグと統制語彙との比較
秦 華偉・関 和広・上原邦昭(神戸大)
生物医学分野の文献に付与されている MeSH 索引語(専門家が付与)と学術論文を対象としたソーシャルブックマークサービス CiteULike のタグ(ユーザが付与)を比較。
クラスタの凝集性(cohesion)、分離性(separation)を比較。
インデックスキーとして使った場合の検索精度を比較。
■Webサイトの構造情報を集約する集合知データベースの構築
江渡浩一郎・沢田洋平(産総研)
ウェブサイトでのページの自動継ぎ足しができる AutoPagerize。便利だがウェブサイトのサイト構造が分からないと使えない。そのための必要情報をXPathで収集した集合知データベース「Wedata」を作って運用。
#新しいタイプの集合知。
この記事に言及しているこのブログ内の記事