たつをの ChangeLog
: 2008-01-19
前後の日:
2008-01-18
< >
2008-01-20
この月:
2008-01
別の年の同じ日:
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2020
2022
2023
2024
エレコムわけありショップで必要な小物を注文
2008-01-19-1 [
Gadget
]
和田さんの ustream.tv 紹介のブログ記事
(
http://wada.cocolog-nifty.com/blog/2008/01/ustreamtv_74be.html
)
で知った楽天の「
エレコムわけありショップ
」。
「ああ、これは売れ残りだよなあ」というような分かりやすいものから、
「あらら、これはお買い得!」というような嬉しいものまで、
いろいろあります。
というわけで、小物を5,6品まとめて発注。
当面必要なものやちょっと実験に使ってみたいものなど。
結局4,000円近くになりました(税込3,150円以上で送料525円が無料に!)。
この記事に言及しているこのブログ内の記事
わけありショップで買ったものをリストアップ (2008-02-18)
USB接続の木のスピーカー (2008-02-12)
ヘビっぽいWebカメラ (2008-02-09)
東京ミッドタウン周辺に「ホットスポット」あるよ
2008-01-19-2 [
TokyoMidtown
]
東京ミッドタウン周辺では、
NTTコミュニケーションズの「ホットスポット」が使えます。
といっても私は ID 持ってないから使えないけどねー。
トーキョードリフト第26回です!2008年もよろしく!
2008-01-19-3 [
Video
][
TokyoDrift
]
動画ブログ「トーキョードリフト」(
http://tokyodrift.jp/
)、
今年もやります!
今年最初の更新である第26回は、
昨年末のトーキョードリフト忘年会と
とミニムービー「おせち」でスタート。
今年もトーキョードリフトをよろしくお願いします!
新年のスタートは忘年会から!
tokyodrift #26
(YouTube)
トーキョードリフト忘年会の様子はこちらのムービーでもどうぞ。
トーキョードリフト忘年会@Wieden+Kennedy
(YouTube)
(ref.
[2007-12-26-3]
)
おせちムービーは帰省のとき Xacti で撮影したのを
後日編集したものです。
(ref.
[2008-01-02-2]
)
MacBook Air を日本で見た!
2008-01-19-4 [
Mac
]
今日は初台の Apple で、
「Start Mac体験モニター」がらみのイベントがあり、
モニターに参加していた kwmr さん (
http://kwmr.blogzine.jp/
)
に連れて行ってもらいました。
「Mac World 2008 報告会」ということで、最新の Mac 情報がいろいろ。
その後、まだ出荷前の MacBook Air をいじる時間があり、
さわりまくりました!その様子はムービーでどうぞ:
MacBook Air を日本で見た!
(YouTube)
(30秒のダイジェスト版です。近いうちに
トーキョードリフト
で
元となった2分ほどのムービーを配信します。
追記080122
: アップされましたよ!
http://tokyodrift.jp/2008/01/21/
)
今回、実機をいじってみた分かった MacBook Air の魅力は
この2点だと思います。
(1) 薄いけど「頑丈」。
(2) 複数の指によるトラックパッド操作。
とはいえ、私は
MacBook (黒)
を買ってから一年たってないので、
当面は MacBook Air の購入予定はありません。まあ当面は、です。
今日撮った写真いろいろ:
会場の窓からの景色です。
イベント前にオペラシティで食べたランチ。
良い感じのもこもこ手編みセーター。
(
http://blog.livedoor.jp/ahiru178/archives/51154268.html
)
この記事に言及しているこのブログ内の記事
トーキョードリフト第27回はMacBook Air (2008-01-22)
検索におけるテキスト走査とインデックス
2008-01-19-5 [
IIR
]
「Introduction to Information Retrieval」[1]の第一章
[2008-01-12-1]
の1.1にの冒頭に出てきた、
「テキスト走査による方法とインデックスによる方法の違い」
をまとめました。
この手の導入的解説は、
私も過去の論文等の冒頭で何度も書いていたりするのですが、
今回、IIRをベースに改めて整理してみました。
§
文書集合から検索質問に合致する文書を検索するために実装は、
「テキスト走査」による方法と
「インデックス」による方法の大きく二つに分けられる(図)。
テキスト走査
(文字列照合 (string pattern maching)[2])による方法は、
単純に文書集合の先頭から最後まで検索キーを順番に照合していく。
最低でも1回は最後まで走査しなければならないので、
文書集合のサイズを N とすれば計算量は O(N) となる。
有名な実装として、UNIX系の grep が知られている。
指定したファイル名(複数ファイルも可能)に対して、
与えられたキーワードを順次照合し、合致した文書(デフォルトでは行)
を出力するというソフトウェアである。
近年のマシン環境においてはこのような単純な方法でも
高速に利用できる機会が多い。
例えば、自分が書いた全ての論文、原稿を検索するなど、
検索対象が把握できる分量であれば実用上問題はない。
走査を高速化するためのさまざまな工夫が試みられている。
例えば、検索キー文字列を事前に処理し照合回数を減らす
KMP法 (Knuth-Morris-Pratt法) や
BM法 (Boyer-Moore法) が多く用いられている。
これに対し、
インデックス
による方法は、
事前に索引 (index) を作ることで検索を高速化する。
一冊の書籍を検索対象として検索する場合、
索引がなければ最初のページからテキスト走査を行う必要があるが、
索引があればそれを引くだけで目的のページが分かる。
インデックスによる方法の最大の利点は、
大規模な文書集合に対して高速に検索できる点である。
例えば、
ウェブ検索のようにペタバイトレベルのデータを対象とする場合、
O(N) のテキスト走査による方法は実用上ほぼ不可能である。
インデックスのもう一つの大きな利点は、
検索結果のランキングが容易であるという点である。
これは文書集合を事前処理することにより得られる情報
(単語出現頻度など)を用いることで実現できる。
もちろんテキスト走査でも、
ランキング表を内部に保持しつつ走査することで実現できるが、
ランキング表が大きい場合や検索キーワードが多い場合に不利である。
テキスト走査による方法の最大の利点は、
利用も実装も手軽であることである。
インデックスを用意する必要がないため、
いつでもすぐに検索が実行できる。
また、頭からスキャンするという単純な処理のため
初歩的なプログラミングの知識だけで実装が可能である。
テキスト走査のもう一つの利点として、
正規表現 (regular expression) などを利用して
検索質問の自由度を高めることができる点がある。
例えば、西暦100年から999年までの表現を含む文書を探す場合、
テキスト走査による方法では
正規表現「西暦[1-9][0-9][0-9]年」で検索すれば良いが、
インデックスによる方法ではあらかじめこのような検索質問を想定して
インデックスを用意しなければならない。
参考文献:
[1] Christopher D. Manning, Prabhakar Raghavan and Hinrich Schu"tze:
Introduction to Information Retrieval, Cambridge University Press, 2008.
(
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
)
[2] 北研二, 津田和彦, 獅々堀正幹:
情報検索アルゴリズム
,
共立出版, 2002.
(間違いや補足などありましたら下記フォームからご連絡頂けると幸いです)
この記事に言及しているこのブログ内の記事
「Introduction to Information Retrieval」輪講第一回 (2008-01-12)
前後の日:
2008-01-18
< >
2008-01-20
この月:
2008-01
別の年の同じ日:
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2020
2022
2023
2024
たつをの ChangeLog
Powered by
chalow