たつをの ChangeLog : 2008-02-06

私の黒 MacBook は 120G HDD なんですが、ぎりぎり生活です。
df で調べてみるとすでにいっぱいいっぱい。やばいです。
% df -k .
Filesystem   1K-blocks      Used   Avail Capacity  Mounted on
/dev/disk0s2 116884912 114978880 1650032    99%    /
空きが 1.6G しかありません。

自分のホームで「df -s -k *(/)」(zsh)をしてみた結果(の一部):
28571732 Movies
24900708 Music
31327412 Pictures
これらで 80G か。

で、もうちょっと詳しくディスク使用状況を調べてみようと
下記を入れてみました。

- Disk Inventory X
  http://www.derlien.com/
- Disk Inventory X(ディスク インベントリー テン)
  http://ascii.jp/elem/000/000/085/85697/

表示させてみた結果がこれ。
dix
青いのは iPhoto Library です。
中には細かいファイルがいっぱいあるのですが、
Finder からひとかたまりとして見えるからか、
ここでもそのように表示されています。
iPhoto のディレクトリ構造やファイルの種類はよくわからないので、
今回はそっとしておくことに。
かわりに赤い iMovie Project を外付けHDDにバックアップして、
ローカルからざっくり削除しました。
dix
26G ほど空きました。これで当面なんとかなりそうです!
% df -k .
Filesystem   1K-blocks     Used    Avail Capacity  Mounted on
/dev/disk0s2 116884912 89859632 26769280    77%    /

Perl で日本語テキストを簡単に字種かたまりに分割できないかな、
と思い、perlunicode を読みながらサンプルプログラムを書いてみました。
対象テキストは UTF-8。

chunker.pl :
#!/usr/bin/perl
use strict;
use warnings;
use Encode;
use utf8;
use open ':utf8';
binmode STDIN, ":utf8";
binmode STDOUT, ":utf8";

while (<>) {
    chomp;
    my @cs = m/(\p{M}+|\p{N}+|\p{P}|\p{S}+|\p{Z}+|\p{C}+
                |\p{Latin}+
                |\p{Han}+
                |\p{Hiragana}[\p{Hiragana}ー]*
                |\p{Katakana}[\p{Katakana}ー]*
                )/gx;
    print join(",", @cs), "\n";
}

実行例:
% cat a.txt
ルーラでう、う9 10AB.DE「"GH'」★で漢字をカ・ナ食ったー!?MJD39?。
% chunker.pl a.txt
ルーラ,でう,、,う,9, ,10,AB,.,DE,「,",GH,',」,★,で,漢字,を,カ,・,\
ナ,食,ったー,!,?,MJD,39,?,。

とりあえず意図通りに動いています。

追記080207: id:dayflower さんに添削して頂きました。感謝!
http://d.hatena.ne.jp/dayflower/20080207/1202354159
正規表現にマッチしないトークンが取りこぼされていたので
このようにすると良いようです。なるほどー。
my @cs = grep { $_ ne q{} } split m/(正規表現)/xmso, $line;
(正規表現の最後に最後に「|.」を足すだけでも良いかもしれませんね。)
さらに補足で、Unocode文字の属性についての丁寧な解説まで!
これは非常にためになります。
不完全なコードながらも恥ずかしげもなくブログ記事を公開してみた
かいがありました。ありがとうございました。

参考資料:
- perlunicode (Document)
-- コマンドラインで「perldoc perlunicode」を実行すると読める。
-- またはウェブから
  http://www.kt.rim.or.jp/~kbk/perl-5.8/perlunicode.html
この記事に言及しているこのブログ内の記事

そろそろ確定申告の時期ですね。
3月17日が締め切りです。
まあ今週末に取りかかるかな。
とはいえ、まだそろってない書類があるんだよな。
どうするかな。

とりあえず去年のメモ:
- [を] 国税庁のサイトで確定申告書類を作成するメモ[2007-02-18-6]

今回(平成19年分)の確定申告書類作成コーナー:
- 確定申告書類等作成コーナー
  https://www.keisan.nta.go.jp/h19/

最近の解説ページ:
- 【特集】2008年 確定申告ガイド - 確定申告All About
  http://allabout.co.jp/contents/sp_kakuteishinkoku_c/
  freelance/CU20080131A/index/

- パソコン好きが青色申告を体験してみると?
-- 第1回 まずは税金ってナニ?
  http://www.itmedia.co.jp/bizid/articles/0802/04/news005.html
-- 第2回 儲けたら節税
  http://www.itmedia.co.jp/bizid/articles/0802/06/news004.html

IIR輪講では、毎回冒頭の15分は id:naoya 氏による「前回の復習」
プレゼンをやることになっています。
さっそく、前回[2008-02-02-1]にやった前々回[2008-01-12-1]の内容の
プレゼン資料 (ppt) が公開されいます。

- Introduction to Information Retrieval #1 の復習資料
  http://d.hatena.ne.jp/naoya/20080205/1202208135

独学で読んでらっしゃる方には非常に参考になると思います。

たつをの ChangeLog
Powered by chalow