#!/usr/bin/perl use strict; use warnings; use Encode; use utf8; use open ':utf8'; binmode STDIN, ':utf8'; binmode STDOUT, ':utf8'; use SUFARY; use Getopt::Long; my $answer_mode = 0; # input with answer? my $debug_mode = 0; GetOptions ( "answer" => \$answer_mode, 'debug' => \$debug_mode, ); my $wordset_fn = shift; my $sa = SUFARY->new($wordset_fn); while (<>) { print "[INPUT] $_" if $debug_mode; chomp; $_ = Encode::decode_utf8($_) if not utf8::is_utf8($_); my $ans = ($_ =~ s/^((.+?)\t)//) ? $2 : "" if $answer_mode; my @c = split(//, $_); my %m; for (my $i = 0; $i < @c; $i++) { my $key; my ($left, $right) = (0, $sa->{'arraysize'}-1); for (my $j = $i; $j < @c; $j++) { $key .= $c[$j]; my $ekey = Encode::encode('utf8', $key); ($left, $right) = $sa->range_search($ekey, $left, $right); last if not defined $left and not defined $right; my ($l, $r) = $sa->range_search($ekey."\t", $left, $right); next if not defined $left and not defined $right; if ($r - $l >= 0) { my $li = $sa->get_position($l); my $s = Encode::decode_utf8($sa->get_line($li)); my ($k, $v) = $s =~ /^(.+)\t(.+)$/; print "[MATCH] $k ($v)\n" if $debug_mode; $m{$v}++; } } } print "$ans "if $answer_mode; print join(" ", map {"$_:$m{$_}"} sort {$a <=> $b} keys %m)."\n"; # print join(" ", map {"$_:1"} sort {$a <=> $b} keys %m)."\n"; }
% mkary -l -q fepp-dic.txt % ./fesa.pl -a fepp-dic.txt < fepp-test.txt 1 1:1 2:1 3:1 0 2:1 3:1 4:1 1 5:1 6:1 7:1 8:1 0 7:1 9:1
家庭用品大手プロクター・アンド・ギャンブル(P&G、本社・米国)がドイツで売り出した洗剤の容器に、ナチス・ドイツの独裁者ヒトラーを賛美する隠語として極右ネオナチが使う「88」や「18」がデザインされているとして、同社は商品の出荷を中止した。DPA通信などが9日伝えた。末広がりの八はヒトラーの8。
アルファベットの8番目がHのため、ドイツでは「88」はハイル・ヒトラー(Heil Hitler=ヒトラー万歳)を表す隠語とされる。同様に「18」は最初のアルファベットのAと8番目のHでアドルフ・ヒトラー(Adolf Hitler)を示すとされている。
複雑な写真機というものは、アマチュア写真家に対して、永遠にクズ写真を撮り続けさせる。本当にどうでもいい、余計な情報、懸念、気がかりを与え続けることによって。
「RAWで撮ったほうがいいかな?」
「AdobeRGBを試そう」
「三脚を使って30分に500枚を撮ろう、そしてHDRで完璧にパンフォーカスの写真をあとでつくろう」
こういった余計な思惑に気を散らされ続けるために、いつまでたっても自分が「なにを撮っているのか」に気づくことがない。
適切な設定でシャッターを切ることに集中力を奪われてしまい、被写体を見るパワーは残されていないのである。今メインで使っているデジカメ PowerShot S120[2013-09-28-3] ではほぼオート(AUTO)しか使ってないなあ。余計な設定は面倒。
もしも良い被写体を見つける努力を怠るようでは、どんなに素晴らしい設定でシャッターを切っても、すべては無駄なのである。
これは優れた写真家がアイフォーンで素晴らしい写真を撮ることからもよく分かる。いかにして撮るかではない、いかによく見ているか、そこが違うのである。
このような大規模なエラー解析は過去に経験がなく、どのような結果が得られるのかやってみないと分からない部分もありますが、今後の自然言語処理研究の方向性を決めるために重要なデータになる事は間違いないと思われます。一人でも多くの研究者に今回のワークショップに参加していただき、自然言語処理研究における次なる展開につなげていくことを期待しています。