たつをの ChangeLog

36 件 見つかりました。

1 2 3 4 5 6 7 8 [ 次へ ]

15年前に書いた記事のリニューアル版です。


前回と同様、bigram language model に基づく、ランダム文生成を行います。
ある単語の次に現れる単語の分布を用いて、文章を生成していくだけです。

形態素解析(日本語の単語の認識)は、Yahoo!デベロッパーネットワークのテキスト解析 API の日本語形態素解析 (V2) を使います。

ベースとなるテキストデータは「日本国憲法」(nkkp.txt) を使います (ref. [2023-06-07-1])。
プログラム mamarkov-build.pl で、テキストデータ (nkkp.txt) を形態素解析し、「ある単語の次に現れる単語の分布」を計算し、データファイル (mamarkov-sample.tsv) に出力します。


実行コマンド:
cat nkkp.txt | ./mamarkov-build.pl > mamarkov-sample.tsv

ファイル:
wc -l nkkp.txt
    224 nkkp.txt

tail -1 nkkp.txt
但し、この憲法によって、後任者が選挙又は任命されたときは、当然その地位を失う。

wc -l mamarkov-sample.tsv
    868 mamarkov-sample.tsv

head mamarkov-sample.tsv | tail -3
あれば  、      、      、      、
い      ない
いかなる        特権    差別    奴隷    宗教    宗教    場合

mamarkov-sample.tsv には
  • 「あれば」のあとには「、」しか現れない(4回)
  • 「いかなる」のあとに続く単語は「宗教」が2回、「特権」「差別」「奴隷」「場合」が1回ずつである
などの統計情報(日本国憲法のテキストの)が格納されています。

このデータファイル (mamarkov-sample.tsv) を用いて、プログラム mamarkov-gen.pl で新たなテキストを生成します。
そのロジックは「RSS を読み込んでランダムな文章を生成する[2008-09-07-3]」で解説しているものと同じです。


実行コマンド:
cat mamarkov-sample.tsv | ./mamarkov-gen.pl

出力例:
配偶者の国民の原理に、これを証拠とが欠けたときは、及び団体は、この憲法第二以上の多数でこれを、これを選任する。

但し、又は一部の自由を委任ができる。

信教の議事機関は、社会的、国会を有する終審と異なった議決にも、個人の安全とする。

財産は、及び法律の下に保障及び残虐な刑罰を失う。

何人も、国務大臣は、一般行政機関が日本国民は、内閣は、可否同数の全部又は法律の目的を経なければならない。

関連記事


2008-2009年に輪講した「Introduction to Information Retrieval」(IIR)の日本語訳が「情報検索の基礎」というタイトルで共立出版から出るそうです。2012/6/23に発売予定。

Christopher D.Manning, Prabhakar Raghavan, Hinrich Schutze (著), 岩野和生, 黒川利明, 濱田誠司, 村上明子 (翻訳) / 情報検索の基礎

本書は,従来の古典的な情報検索から,最近のウエブの情報検索までの基礎をわかりやすく扱った,網羅的で最先端の入門書である。

最初に,文書の前処理,インデックス化,逆インデックス,重み付け,スコア付け,検索システムの評価といった,情報検索の基礎,特にサーチエンジンに関わる話題をとりあげる。
次に,より先進的な話題として,関連性のフィードバックやクエリー拡張を用いた検索の強化手法,構造化された文書からの情報検索,文書のスコア付けにおける確率論の応用といった話題をとりあげる。
その後に,カテゴリー集合への分類問題,クラスター化の問題といった,様々な形の機械学習と数値手法を取り扱う。
最後に,ウエブサーチの問題を扱う。

情報検索に関わる,マーケティングから情報管理,コンピュータや言語情報に関連した理学系,工学系,経営系の学生・研究者・技術者にとって有用な1冊となるだろう。

内容についてはいまさら紹介するものでもないですが、とにかくウェブ時代の情報検索のコアな技術や周辺技術を一通りカバーしており、この分野の基礎を学びたい人にはおススメです。

私は原著を持っているので個人としては購入しない予定。

Introduction to Information Retrieval


「Introduction to Information Retrieval」の輪講の第20回です。
この輪講(勉強会)の最終回なのです。

- Introduction to Information Retrieval
  http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

今回も六本木ヒルズの百度 (http://www.baidu.jp/)
の会議室を会場として使わせて頂きました。ありがとうございます。
Baidu JAPAN Office

今回の内容


id:naoya 氏による恒例の復習プレゼン。
第18章「Matrix decompositions and latent semantic indexing」を説明して頂きました。
ref. Introduction to Information Retrieval #18 の復習資料 (naoyaのはてなダイアリー) http://d.hatena.ne.jp/naoya/20090301/1235912009

で、今回の輪講は一気に3章分。
第19章「Web search basics」、
第20章「Web crawling and indexes」、
第21章「Link analysis」をやりました。
すべてウェブ検索がらみの章です。
IIRの19-21章は他の章とはほぼ独立した話題なので、IIRを読むときに最初にこの辺から読み始めるのは良いかも知れません。

at Baidu JAPAN Office

以下、メモ: (あとで追記する)

20章:
- Mercator: A scalable, extensible web crawler
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.30.5342
- common heuristic:

今回の内容に関係する書籍や話題になった書籍


Books to read

Introduction to Information Retrieval


WEB+DB PRESS Vol.49

(ref. [を] レコメンデーションの解説が分かりやすい「WEB+DB PRESS Vol.49」[2009-02-22-2])

(あとで追記する)

打ち上げ


終了記念として打ち上げ(という名の飲み会)を行いました。
場所は「松ちゃん(まっちゃん)」[2009-03-12-1]
すし居酒屋 松ちゃん(六本木)
この記事に言及しているこのブログ内の記事

「Introduction to Information Retrieval」の輪講の第19回です。

- Introduction to Information Retrieval
  http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

今回も六本木ヒルズの百度 (http://www.baidu.jp/)
の会議室を会場として使わせて頂きました。ありがとうございます。

今回の内容


まずは、id:naoya 氏による恒例の復習プレゼン。
第17章「Hierarchical clustering」を説明して頂きました。

今回の輪講は第18章「Matrix decompositions and latent semantic indexing」でした。
今までで一番難しい章でした。
というのも線形代数の知識がすっぽり頭から抜けていたから。
そこらへんの復習から始めて、Singular Value Decomposition (SVD) のおおまかな流れを理解し、Latent Semantic Indexing (LSI) の仕組みもなんとなく分かりました。
というか、LSI が初めてちゃんと分かった気になれました。
よかった、よかった。

以下、用語リスト。Wikipedia にあればリンクも。
- 転置行列 (A^T)
- 行列式 (|A|)
- 対角行列 (diagonal matrix)
- 単位行列 (identity matrix)
- 対称行列 (symmetric matrix)
- 特異値分解 (singular value decomposition)
- 低階数近似 (low-rank approximation)

最後に、第15章の残りを少々[2008-11-02-3]

これで IIR も第19-21章のウェブまわりを残すのみとなりました!
次回、その3章を一気にやって大団円を迎える予定!!!

今回の内容に関係する書籍


Introduction to Information Retrieval


「Introduction to Information Retrieval」の輪講の第18回です。

- Introduction to Information Retrieval
  http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

今回も前回に引き続き、六本木ヒルズの百度 (http://www.baidu.jp/)
の会議室を会場として使わせて頂きました。ありがとうございます。
百度!BAIDU!百度!
table

今回の内容


今回の参加者は13名くらいでした。

id:naoya 氏による恒例の復習プレゼンが久しぶりに復活しました。
前回の第16章「Flat clustering」の概要を
まとめて説明して頂きました。
id:naoya

今回の輪講は、第17章「Hierarchical clustering」でした。
樹形図・トーナメント図のように1対1でクラスタを
まとめあげていくという話です。
基本はボトムアップでまとめていく手法についての解説でした。
クラスタ間の類似度の尺度のバリエーションなどが丁寧に
解説されています。

あと、各クラスタの名前(ラベリング)を自動でつけるという
「Cluster labeling」の話もあったのですが、
「キーワード抽出してみよう!」レベルの話だったので、
なんというかちょっと残念でした。

今回の内容に関係する書籍


Introduction to Information Retrieval


今回のおやつ


今回のおやつは、YRP方面から届いた、
横須賀名物(?)「携帯サブレー」でした。
横須賀は携帯電話発祥の地らしいです。
オーソドックスなサブレで非常においしいです。
ごちそうさまでした。
携帯サブレー
携帯サブレー 携帯サブレー
(形状、パッケージ、「そもそも」論など、
  ツッコミどころがいろいろとありそうです)

1 2 3 4 5 6 7 8 [ 次へ ]

たつをの ChangeLog
Powered by chalow