たつをの ChangeLog

35 件 見つかりました。

1 2 3 4 5 6 7 [ 次へ ]

2008-2009年に輪講した「Introduction to Information Retrieval」(IIR)の日本語訳が「情報検索の基礎」というタイトルで共立出版から出るそうです。2012/6/23に発売予定。

Christopher D.Manning, Prabhakar Raghavan, Hinrich Schutze (著), 岩野和生, 黒川利明, 濱田誠司, 村上明子 (翻訳) / 情報検索の基礎

本書は,従来の古典的な情報検索から,最近のウエブの情報検索までの基礎をわかりやすく扱った,網羅的で最先端の入門書である。

最初に,文書の前処理,インデックス化,逆インデックス,重み付け,スコア付け,検索システムの評価といった,情報検索の基礎,特にサーチエンジンに関わる話題をとりあげる。
次に,より先進的な話題として,関連性のフィードバックやクエリー拡張を用いた検索の強化手法,構造化された文書からの情報検索,文書のスコア付けにおける確率論の応用といった話題をとりあげる。
その後に,カテゴリー集合への分類問題,クラスター化の問題といった,様々な形の機械学習と数値手法を取り扱う。
最後に,ウエブサーチの問題を扱う。

情報検索に関わる,マーケティングから情報管理,コンピュータや言語情報に関連した理学系,工学系,経営系の学生・研究者・技術者にとって有用な1冊となるだろう。

内容についてはいまさら紹介するものでもないですが、とにかくウェブ時代の情報検索のコアな技術や周辺技術を一通りカバーしており、この分野の基礎を学びたい人にはおススメです。

私は原著を持っているので個人としては購入しない予定。

Introduction to Information Retrieval


「Introduction to Information Retrieval」の輪講の第20回です。
この輪講(勉強会)の最終回なのです。

- Introduction to Information Retrieval
  http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

今回も六本木ヒルズの百度 (http://www.baidu.jp/)
の会議室を会場として使わせて頂きました。ありがとうございます。
Baidu JAPAN Office

今回の内容


id:naoya 氏による恒例の復習プレゼン。
第18章「Matrix decompositions and latent semantic indexing」を説明して頂きました。
ref. Introduction to Information Retrieval #18 の復習資料 (naoyaのはてなダイアリー) http://d.hatena.ne.jp/naoya/20090301/1235912009

で、今回の輪講は一気に3章分。
第19章「Web search basics」、
第20章「Web crawling and indexes」、
第21章「Link analysis」をやりました。
すべてウェブ検索がらみの章です。
IIRの19-21章は他の章とはほぼ独立した話題なので、IIRを読むときに最初にこの辺から読み始めるのは良いかも知れません。

at Baidu JAPAN Office

以下、メモ: (あとで追記する)

20章:
- Mercator: A scalable, extensible web crawler
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.30.5342
- common heuristic:

今回の内容に関係する書籍や話題になった書籍


Books to read

Introduction to Information Retrieval


WEB+DB PRESS Vol.49

(ref. [を] レコメンデーションの解説が分かりやすい「WEB+DB PRESS Vol.49」[2009-02-22-2])

(あとで追記する)

打ち上げ


終了記念として打ち上げ(という名の飲み会)を行いました。
場所は「松ちゃん(まっちゃん)」[2009-03-12-1]
すし居酒屋 松ちゃん(六本木)
この記事に言及しているこのブログ内の記事

「Introduction to Information Retrieval」の輪講の第19回です。

- Introduction to Information Retrieval
  http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

今回も六本木ヒルズの百度 (http://www.baidu.jp/)
の会議室を会場として使わせて頂きました。ありがとうございます。

今回の内容


まずは、id:naoya 氏による恒例の復習プレゼン。
第17章「Hierarchical clustering」を説明して頂きました。

今回の輪講は第18章「Matrix decompositions and latent semantic indexing」でした。
今までで一番難しい章でした。
というのも線形代数の知識がすっぽり頭から抜けていたから。
そこらへんの復習から始めて、Singular Value Decomposition (SVD) のおおまかな流れを理解し、Latent Semantic Indexing (LSI) の仕組みもなんとなく分かりました。
というか、LSI が初めてちゃんと分かった気になれました。
よかった、よかった。

以下、用語リスト。Wikipedia にあればリンクも。
- 転置行列 (A^T)
- 行列式 (|A|)
- 対角行列 (diagonal matrix)
- 単位行列 (identity matrix)
- 対称行列 (symmetric matrix)
- 特異値分解 (singular value decomposition)
- 低階数近似 (low-rank approximation)

最後に、第15章の残りを少々[2008-11-02-3]

これで IIR も第19-21章のウェブまわりを残すのみとなりました!
次回、その3章を一気にやって大団円を迎える予定!!!

今回の内容に関係する書籍


Introduction to Information Retrieval


「Introduction to Information Retrieval」の輪講の第18回です。

- Introduction to Information Retrieval
  http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

今回も前回に引き続き、六本木ヒルズの百度 (http://www.baidu.jp/)
の会議室を会場として使わせて頂きました。ありがとうございます。
百度!BAIDU!百度!
table

今回の内容


今回の参加者は13名くらいでした。

id:naoya 氏による恒例の復習プレゼンが久しぶりに復活しました。
前回の第16章「Flat clustering」の概要を
まとめて説明して頂きました。
id:naoya

今回の輪講は、第17章「Hierarchical clustering」でした。
樹形図・トーナメント図のように1対1でクラスタを
まとめあげていくという話です。
基本はボトムアップでまとめていく手法についての解説でした。
クラスタ間の類似度の尺度のバリエーションなどが丁寧に
解説されています。

あと、各クラスタの名前(ラベリング)を自動でつけるという
「Cluster labeling」の話もあったのですが、
「キーワード抽出してみよう!」レベルの話だったので、
なんというかちょっと残念でした。

今回の内容に関係する書籍


Introduction to Information Retrieval


今回のおやつ


今回のおやつは、YRP方面から届いた、
横須賀名物(?)「携帯サブレー」でした。
横須賀は携帯電話発祥の地らしいです。
オーソドックスなサブレで非常においしいです。
ごちそうさまでした。
携帯サブレー
携帯サブレー 携帯サブレー
(形状、パッケージ、「そもそも」論など、
  ツッコミどころがいろいろとありそうです)

「Introduction to Information Retrieval」の輪講の第17回です。

- Introduction to Information Retrieval
  http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

今回の場所は、六本木ヒルズの百度 (http://www.baidu.jp/) の
会議室を使わせて頂きました。ありがとうございます。
BAIDU! BAIDU!


今回の参加者は12名くらいでした。



恒例の復習プレゼンですが、しばらくお休みしていた
id:naoya 氏が輪講に復活したのですが、
いろいろと忙しいようで今回も無しでした。また近々!



今回の輪講は、第16章「Flat clustering」でした。
クラスタリングです。つまり、ドキュメントを
いくつかのクラスター(グループ)に分けちゃいます。
そういう手法の一つとして、
k-means というアルゴリズムを紹介しています。
これは重要!



とはいえ、実際に応用ソフト、ウェブサービスで使う上では、
クラスタに分けるだけではなく、各クラスタの名前(ラベリング)
を自動で適切につけないと使いものにならないのですが、
そこらへんについては次章でやるらしいです。

今回の内容に関係する書籍


Introduction to Information Retrieval


1 2 3 4 5 6 7 [ 次へ ]

たつをの ChangeLog
Powered by chalow