34 件 見つかりました。
「Introduction to Information Retrieval」の輪講の第20回です。
この輪講(勉強会)の最終回なのです。
- Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
今回も六本木ヒルズの百度 (http://www.baidu.jp/)
の会議室を会場として使わせて頂きました。ありがとうございます。



「Introduction to Information Retrieval」の輪講の第19回です。
- Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
今回も六本木ヒルズの百度 (http://www.baidu.jp/)
の会議室を会場として使わせて頂きました。ありがとうございます。

「Introduction to Information Retrieval」の輪講の第18回です。
- Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
今回も前回に引き続き、六本木ヒルズの百度 (http://www.baidu.jp/)
の会議室を会場として使わせて頂きました。ありがとうございます。
百度!BAIDU!百度!

「Introduction to Information Retrieval」の輪講の第17回です。
- Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
今回の場所は、六本木ヒルズの百度 (http://www.baidu.jp/) の
会議室を使わせて頂きました。ありがとうございます。
BAIDU! BAIDU!
今回の参加者は12名くらいでした。
恒例の復習プレゼンですが、しばらくお休みしていた
id:naoya 氏が輪講に復活したのですが、
いろいろと忙しいようで今回も無しでした。また近々!
今回の輪講は、第16章「Flat clustering」でした。
クラスタリングです。つまり、ドキュメントを
いくつかのクラスター(グループ)に分けちゃいます。
そういう手法の一つとして、
k-means というアルゴリズムを紹介しています。
これは重要!
とはいえ、実際に応用ソフト、ウェブサービスで使う上では、
クラスタに分けるだけではなく、各クラスタの名前(ラベリング)
を自動で適切につけないと使いものにならないのですが、
そこらへんについては次章でやるらしいです。

「Introduction to Information Retrieval」の輪講の第16回です。
- Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
今回の場所は、前回に引き続き
初台の DeNA (http://www.dena.jp/) の会議室でした。
いつもありがとうございます!
DeNA!! DeNA!! モバゲー! モバゲー!

はてブのリニューアルとかで大変っぽい雰囲気な id:naoya 氏
は今回もお休みでしたので恒例の復習プレゼンは無しでした。
また今度!
さて、今回の輪講は、第15章
「Support vector machines &
machine learning on documents」です。
Support vector machines は略して SVM。
「機械学習と言えば俺のこと!泣く子も黙る SVM でい!」
SVM!! SVM!!
またこの章は、SVM の話だけでなく、
どういう分類タスクにどういう機械学習手法を使ったら良いか、
という話題もあり、参考になるかと。
今日は章の三分の二まで終了。
続きは次回。
ref.
- Wikipedia: ラグランジュの未定乗数法


「Introduction to Information Retrieval」の輪講の第15回です。
- Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
今回は、
初台の DeNA (http://www.dena.jp/) の会議室で行われました。
会場提供、ありがとうございます。
DeNA! DeNA!
恒例の「前章の復習 by id:naoya」は
id:naoya 氏がお休みだったので無しでした。
また次回。
さて、今回の輪講は、まずは
第13章「Text classification & Naive Bayes」の続きで、
文書分類の評価についての話。
そして第14章「Vector space classification」を最後まで。
線形と非線形の2種類の分類について。
Rocchio と k Nearest Neighbor。
非線形分類器である kNN は普通の検索エンジンを
利用できるので、実装は超ラクラク!
| キーワード | 検索結果数 |
|---|---|
| ロッキオ | 250 |
| ロッチオ | 15 |

「Introduction to Information Retrieval」の輪講の第14回です。
- Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
前回に引き続き今回も
六本木ヒルズの百度の会議室を使わせて頂きました。
ありがとうございます。
BAIDU! BAIDU!
最初に恒例の「前章の復習 by id:naoya」
(http://d.hatena.ne.jp/naoya/20080928/1220796559)
前章の言語モデルネタの解説。お疲れさまです。
今回の輪講は第13章「Text classification & Naive Bayes」。
文書分類とは何か?的な話と、それを行う一手法としての
ナイーブベイズ(Naive Bayes)についてです。
この章はページ数が多くてくじけてしまいそうになりがちですが、
扱っている内容は前章、前前章をふまえればそれほど難しくありません。
文書分類技術はスパム判定はじめ、
あらゆる場面で適用できる使い道の多い便利なツールです。
こまった場面でささっと取り出せるようになると良いですね。
なお、今回は章の途中で時間切れ。
次回に続きをやります。


今日のIIR輪講[2008-09-07-2]の内容のフォローも兼ねて、ちょっとしたハックを紹介。
bigram language model に基づく、ランダム文生成を行います。
って、まあ、単純にある単語の次に現れる単語の分布を用いて、文章を生成していくだけですが。
以下、サンプルプログラムと実行例です。
#!/usr/bin/perl
use strict;
use warnings;
use XML::RSS;
use LWP::Simple;
use XML::Simple;
use URI::Escape;
use utf8;
binmode STDOUT, ":utf8";
my $appid = "YahooDemo";
my $rss_url = shift;
my $rss_cont = get($rss_url) || "";
my $rss = XML::RSS->new;
$rss->parse($rss_cont);
my %next_words;
my $pre = "";
foreach my $i (@{$rss->items}) {
my $ma_ref = webma($i->{title}."\n".$i->{description});
foreach my $mo (@{$ma_ref->{ma_result}->{word_list}->{word}}) {
my $w = $mo->{surface};
$w = "" if ref($w) eq "HASH";
next if ($pre eq "" and $w eq "");
push @{$next_words{$pre}}, $w;
$pre = $w;
}
}
my @words;
my $cur = "";
for (my $i = 0; $i < 200; $i++) {
my $tmp = $next_words{$cur};
$cur = $tmp->[rand(@$tmp)];
last if $cur eq "" and $i > 100;
push @words, $cur;
}
print join("", @words), "\n";
sub webma {
my ($key) = @_;
return {} unless $key;
my $url = "http://api.jlp.yahoo.co.jp/MAService/V1/parse"
."?appid=$appid&results=ma&response=surface"
."&sentence=".URI::Escape::uri_escape_utf8($key);
my $response = get($url);
my $xmlsimple = XML::Simple->new(ForceArray => [ 'word' ]);
return $xmlsimple->XMLin($response);
}
日本語形態素解析に Yahoo!API を使っています。
$appid は自分で取得したものを使ってくださいね。
(http://e.developer.yahoo.co.jp/webservices/register_application)
./rss-lm.pl http://chalow.net/cl.rdf
【初めての持ちが、ハーゲンダッツの会)ブログで焼いて、その他のひみつ][2008北海道へ行かなくて。場所は、彼のエコアート。ローマ人のスーパーでは一個29,400円は、-04-03-08-基本的な味で売っていた!描画がFX35-KChromeLUMIXでも、デニムの大和路[2008特にhttp://wassr...blog.com/2008受賞作品展」というかとか西麻布でオフィシャルにスイカを置いておいしいです。
「北海道へ行かなくて。場所は、彼のエコアート。」ってのは、ポエムな感じで素敵です。
あと、確かにオフィシャルなスイカ(たぶん国産西瓜のことかと)はおいしいです。
http://d.hatena.ne.jp/naoya/
./rss-lm.pl http://d.hatena.ne.jp/naoya/rss
SKK分だけ、はてなハイクの発表を受けはてなハイクのインターンもbyteArray::Gapでした。金曜日はアルゴリズムの頃、はてなハイクのたつをさんから、あの変換スタイルにやろうと言えばThriftcodesKansai.net/~naoya1977/about-thrift/naoya/naoya1977/インフラを終えて発表資料を試みました。という課題が終わり、計算機科学にアップロードしましたことから何か適当に関する手法第2回募集
ついに「はてなハイクのたつをさん」になってしまいました!
あまり使ってないんだけどな、最近は。
あと、「何か適当に関する手法」を募集しているようです。
しかも第2回。一発ネタでは終わらないのですね。
例:「今日」→「は」「も」「の」「の」「は」「から」「は」「の」
(x = 「今日」)
(2) そのリストから一つランダムで選ぶ。
という単純なものです。
説明するまでもないと思いますが、こうすることで「は」「も」「の」「から」は、それぞれ P(は|今日)、P(も|今日)、P(の|今日)、P(から|今日)、に準じた確率でランダムに選ばれます。
単語が多い対象では実行性能が悪くなりますが、RSS のテキストくらいの量なら問題ないでしょう。
ランダムで選ばれた単語を出力し、その単語の次に現れる単語をまたランダムで選ぶ、ということをループさせることにより文章を生成していきます。
なお、空文字の単語は「文頭または文末」を意味しています。
ループの最初は空文字からスタートさせます。
「Introduction to Information Retrieval」の輪講の第13回です。
- Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
今回は六本木ヒルズの Baidu の会議室を使わせて頂きました。
ありがとうございました。百度!百度!

最初に恒例の「前章の復習 by id:naoya」
(http://d.hatena.ne.jp/naoya/20080907/1220796559)。
前章の確率ネタの解説。これは結構大変。お疲れさまです。
そして、今回の輪講は第12章
「Language models for information retrieval」。
この章は、前章に続いて確率・統計の話。
言語を確率分布で表現する「言語モデル」についてです。
内容の難易度や分量は前章や次章と比べると控えめ。
今回の内容(言語モデル)を適用したハックもどうぞ→[2008-09-07-3]
次回はナイーブベイズ(Naive Bayes)です。
内部ベイズではありません。



ドラフトPDFがネット上にあることで、
輪講に使っている IIR ですが、このたび書籍版もゲットしました。

- Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
■Introduction to Information Retrieval

![]()
PDFだと印刷したやつがどっか行っちゃう問題があったり、
本全体を俯瞰したいときに不便だったりするので、
結局「本」というまとまった媒体が必要なのです。
あとから何度も参照することになると思うので、
やはり物理的にあった方が良いのです。個人的には。