日本語文字列の場合(に限らないけど)、使う字種を少なくするほど圧縮率が向上する。漢字をひらがなにすると情報量が減るので(「記者」を「きしゃ」と表記すると「汽車?帰社?貴社?」と曖昧性が増える=情報量減少)、当たり前のことだけど。
ということで、圧縮率向上のための構成支援ツールがあると嬉しい。「この文字をひらがなにするとこれだけ圧縮率が上がります」と教えてくれたり。
ひらがな化の推薦順序はどういう漢字がひらがな表記率が高いかの統計データを使う。例えば「面白い」を「おもしろい」と書くのは一般的だけど「東京駅」を「とうきょうえき」とはあまり書かない、みたいな統計データ。コーパスから得ることができる。
既出ネタかな。
ちなみに手元にある100万文字ほどの日本語テキストとそれを形態素解析器通して読みだけ取り出したテキストを圧縮してサイズ比べたらたかだか一割減だった。小さいサイズのテキストの方が効果出るかなと思って350字のテキストでやってみたら二割減だった。最大効果でこれだから、あんまり嬉しくないな。
ということで、圧縮率向上のための構成支援ツールがあると嬉しい。「この文字をひらがなにするとこれだけ圧縮率が上がります」と教えてくれたり。
ひらがな化の推薦順序はどういう漢字がひらがな表記率が高いかの統計データを使う。例えば「面白い」を「おもしろい」と書くのは一般的だけど「東京駅」を「とうきょうえき」とはあまり書かない、みたいな統計データ。コーパスから得ることができる。
既出ネタかな。
ちなみに手元にある100万文字ほどの日本語テキストとそれを形態素解析器通して読みだけ取り出したテキストを圧縮してサイズ比べたらたかだか一割減だった。小さいサイズのテキストの方が効果出るかなと思って350字のテキストでやってみたら二割減だった。最大効果でこれだから、あんまり嬉しくないな。