#!/usr/bin/env perl
use strict;
use warnings;
use List::Util qw(sum);
use Getopt::Long;
use utf8;
use open ":utf8";
binmode STDIN, ":utf8";
binmode STDOUT, ":utf8";
my $key_at_str = 0; # key=POS : process only POS-th column (origin 1)
my $sep = ""; # token separator
my $line_mode = 0; # process each-line
GetOptions(
"key=s" => \$key_at_str,
"sep=s" => \$sep,
"line" => \$line_mode,
);
my %freq;
while (<>) {
chomp;
$_ = (split(/\t/, $_))[$key_at_str-1] if $key_at_str;
next if /^\s*$/;
my @c = split(/$sep/, $_);
$freq{$_}++ for @c;
if ($line_mode) {
printf "%.8f\n", calc_entro(\%freq);
%freq = ();
}
}
printf "%.8f\n", calc_entro(\%freq) if not $line_mode;
sub calc_entro {
my ($r) = @_;
my $sum = sum(values %$r);
my $H = -1 * sum(map {my $p = $r->{$_}/$sum; $p * log($p)/log(2)} keys %$r);
return $H;
}
% cat test-1.txt 六本木から渋谷へ行くには恵比寿経由かな 今日は高校で国語のテストです バナナとリンゴ あはははは ああああ % ./aventro.pl test-1.txt 4.93880341 % ./aventro.pl -l test-1.txt 4.14266436 3.66449778 2.52164064 0.72192809 0.00000000
% cat test-2.tsv 1 六本木,から,渋谷,へ,行く,に,は,恵比寿,経由,で,山手線,で,行く 2 今日,は,国語,の,テスト,は,ない 3 バナナ,と,リンゴ 4 あはははは % ./aventro.pl -k 2 -s "," test-2.tsv 4.22017552 % ./aventro.pl -k 2 -s "," -l test-2.tsv 3.39274741 2.52164064 1.58496250 0.00000000
「ニセ科学本」はデータの扱い方に特徴がある。普通のデータを普通に扱うだけでは、常識をくつがえす大胆な主張は展開できないからである。ここでは『早死にしたくなければ、タバコはやめないほうがいい』(武田邦彦著/竹書房新書)を題材に考察してみる。
現在の日本の状況は、嫌韓感情が上昇したというよりも、正確には“戻った”と表現すべきでしょう。90年代に日本人が抱いていた韓国に対する感情と、現在の感情には数字的にほとんど差がないのですから。

本書は、小学校で習う統計学の基礎レベルから、高校の数学I、数学B、多変量解析、ベイズ統計学、ビッグデータなど本格的なレベルまで、統計学がまるごとつまった「統計学の図鑑」です。オールカラーとふんだんな図で、とてもていねいに説明しています。統計学をこれから勉強したい人、基礎から学び直ししたい人、親子で一緒に勉強したい人にぴったりです。統計学を一望できる本書は、ずっと手元に置いておける役立つ一冊です。
【本書の内容】
■1章 統計学の基本を知ろう
■2章 記述統計学
■3章 統計学に必要な確率の考え方
■4章 推測統計学の考え方
■5章 統計学の実際を知る
■6章 関係を科学する統計学(多変量解析)
■7章 ベイズ統計学
■8章 活躍する統計学