たつをの ChangeLog

173 件 見つかりました。

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 [ 次へ ]

Google謹製の「音声文字変換」アプリを Android で試してみました。
リアルタイムで音声を文字起こししてくれるアプリです。

音声文字変換アプリ Android

起動するとすぐに音声認識&文字変換がスタートします。
認識したらどんどんその場で文字になっていきます。



しばらくしゃべり続けて文脈情報が増えると、最初の認識結果が再変換されたりして、賢さを感じます。

動画の例だと、
  • 1. 「ロンドン」
  • 2. 「ロンドン喋っていくと」
  • 3. 「どんどん喋っていくと」
と変わっているのがわかります。

あと、「まあ」とか「あー」とかの短めなフィラーは無視してくれるのはありがたいですね(長いと残る)。

音声文字変換

教科書の詩を朗読しました。
とらちゃん(小3息子)も同時に読んでいたので、間に変なの(「私」の重複とか)が入ったり。
複数の人間がしゃべっていると混ざるのは仕方ないですね。
そして息子は案の定、下品な言葉を乱発して困ります。
画面では「笑い声」というメタ情報も表示されていますね。
そういうが面白いお年頃なのです。

音声文字変換アプリ Android

テレビのニュースを文字化。
十分実用的ですね。
「グエン容疑者」が「文容疑者」になっていますがこれはやむなし。

音声文字変換

現時点での結論:完璧なものではないですが非常に使いやすくてとても良い

参考


名古屋で開催中の言語処理学会年次大会2019に参加。

%u540D%u53E4%u5C4B%u5927%u5B66


3月12日(火)10:30-チュートリアル
17:00-スポンサーイブニング
3月13日(水)9:00-本会議 第1日(午前 招待講演1,午後 25周年企画)
19:00-懇親会
3月14日(木)9:00-本会議 第2日 (午前 招待講演2)
3月15日(金)9:00-本会議 第3日

名古屋大学に来るのは初めて。
市中心部からは地下鉄で楽々。
大学に地下鉄駅ができたのは今世紀になってから。

%u540D%u53E4%u5C4B%u5927%u5B66 %u540D%u53E4%u5C4B%u5927%u5B66 %u540D%u53E4%u5C4B%u5927%u5B66 %u540D%u53E4%u5C4B%u5927%u5B66

豊田講堂でチュートリアル(3/12)。

%u8C4A%u7530%u8B1B%u5802%20%uFF08%u540D%u53E4%u5C4B%u5927%u5B66%uFF09
%u8C4A%u7530%u8B1B%u5802%20%uFF08%u540D%u53E4%u5C4B%u5927%u5B66%uFF09 %u8C4A%u7530%u8B1B%u5802%20%uFF08%u540D%u53E4%u5C4B%u5927%u5B66%uFF09 %u8C4A%u7530%u8B1B%u5802%20%uFF08%u540D%u53E4%u5C4B%u5927%u5B66%uFF09 %u8C4A%u7530%u8B1B%u5802%20%uFF08%u540D%u53E4%u5C4B%u5927%u5B66%uFF09

スポンサーイブニング(3/12)。
大盛況。

%u30B9%u30DD%u30F3%u30B5%u30FC%u30A4%u30D6%u30CB%u30F3%u30B0 %u30B9%u30DD%u30F3%u30B5%u30FC%u30A4%u30D6%u30CB%u30F3%u30B0

本会議1日目(3/13)。
IB大講義室でオープニングと招待講演。

NLP2019%20%u30AA%u30FC%u30D7%u30CB%u30F3%u30B0%u30BB%u30C3%u30B7%u30E7%u30F3 NLP2019%20%u30AA%u30FC%u30D7%u30CB%u30F3%u30B0%u30BB%u30C3%u30B7%u30E7%u30F3 NLP2019%20%u62DB%u5F85%u8B1B%u6F14 NLP2019%20%u62DB%u5F85%u8B1B%u6F14

総会に参加(3/13)。
お弁当が出ました。
ごちそうさまでした。

%u304A%u5F01%u5F53

25周年企画(3/13)。
言語処理学会年次大会の25年を振り返る。
IB大講義室でやってたのを、IB014で中継で見ました。

NLP2019

口頭発表。
人がいっぱいで入れない部屋もあり。

NLP2019
NLP2019 NLP2019

言語処理飲み会(NLP飲み会)。
懇親会の二次会として毎回有志で開催される飲み会。
「ビアホール BardenBarden 栄店」にて。
懇親会は参加者多数で申し込めなかったので今回の飲み会はこれだけ。
参加者多くて大盛況、100人以上居たかと。
飲み会中の写真は撮り忘れました。

%u30D0%u30FC%u30C7%u30F3%u30D0%u30FC%u30C7%u30F3%20%u6804%20%u540D%u53E4%u5C4B

本会議2日目(3/14)。
IB大講義室で招待講演。
別室で中継でみる。

NLP2019

ポスターセッション。
人多いです。

NLP2019%20%u30DD%u30B9%u30BF%u30FC%u30BB%u30C3%u30B7%u30E7%u30F3
NLP2019%20%u30DD%u30B9%u30BF%u30FC%u30BB%u30C3%u30B7%u30E7%u30F3 NLP2019%20%u30DD%u30B9%u30BF%u30FC%u30BB%u30C3%u30B7%u30E7%u30F3

自然言語処理

告知です。言語処理学会による自然言語処理技術入門セミナーあります。

タイトルは地味ですが、ビジネス等での応用を見据えた実践的な話です。

  • 言語処理学会 言語処理技術セミナー
    言語処理学会では,新しく自然言語処理技術に興味を持たれたり,新たに導入を検討されていたりする産業界の方々を対象にしたセミナーを企画しました.第一線で活躍されている研究開発者を講師にお招きし,自然言語処理技術の概要とその応用に関してわかりやすく解説していただきます.
    2018年11月19日(月)13:00 – 17:40 (12:30より受付開始)
    コングレスクエア日本橋 3FホールD

実際に企業で自然言語処理技術でバリバリやっている(いた)3名による、絵空事じゃない現場感のある内容のセミナーです。技術文書、コールセンター、診断書、口コミ分析、chatbot などの仕組みや実現方法を入門レベルから解説します。

興味のある方はぜひー

青空文庫のテキストデータを一括でダウンロードする方法について。
GitHub にサイトのデータなど一式入っているのでそこからゲットするだけ。

青空文庫とGitHub


青空文庫のサイトから wget でまとめてダウンロードしてもいいんだけど、運用サーバに負荷かけるのはさけたいので、github から取れるのはありがたいです。


ディレクトリ "cards/" の下にテキストデータあり。
青空文庫のサイトの構成と同じですね。

ダウンロード


ということで、ディレクトリを指定してのダウンロード。
(参考:GitHubから特定のディレクトリだけを直接ダウンロード
% svn export https://github.com/aozorabunko/aozorabunko/trunk/cards
...
% du -hs cards
2.3G cards

【おまけ】青空文庫でランダム文生成


定番タスクで実験。
何かテキストから学習して自動文章生成(ランダム文生成)を行ってみる。

(1) 対象データ

ターゲットとして、夏目漱石の「吾輩は猫である」。
  • XHTML: cards/000148/files/789_14547.html
  • ZIP: cards/000148/files/789_ruby_5639.zip

789_ruby_5639.zip を unzip して wagahaiwa_nekodearu.txt を取り出す

% nkf -w wagahaiwa_nekodearu.txt| tail -n +25 | head -2
 吾輩《わがはい》は猫である。名前はまだ無い。
 どこで生れたかとんと見当《けんとう》がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩は[...]

(2) クリーニング

テキスト中の注記など削除して、1行1文に変換する。

変換スクリプト: text2sentences.pl
#!/usr/bin/env perl
# -*- coding: utf-8 -*-
use strict;
use warnings;
use utf8;
use open ":utf8";
binmode STDIN, ":utf8";
binmode STDOUT, ":utf8";

my $cnt = 0;
while (<>) {
    last if /^底本/;
    if (/^----/) {$cnt++; next}
    if ($cnt < 2) {next}
    chomp;
    s/\x0d$//;
    s/|//g;
    while (s/《[^《]*?》|[#[^[]*?]|〔[^〔]*?〕//g) {}
    s/^ //;
    next if /^\s*$/;
    s/(。)/$1\n/g;
    s/(」)(「)/$1\n$2/g;
    print join("\n", grep {not /^\s*$/} split(/\n/))."\n";
}

実行結果:
% nkf -w wagahaiwa_nekodearu.txt| ./text2sentences.pl > wu-u8.txt
% head -5 wu-u8.txt
一
吾輩は猫である。
名前はまだ無い。
どこで生れたかとんと見当がつかぬ。
何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。

(3) 形態素解析

形態素解析器にかける。
MeCab を使用。
さくらの500円サーバに最初から入っている(ただし EUC-JP)。
今回は品詞情報は使わないので、分かち書きモードで("-O wakati")。

実行結果:
% nkf -e wn-u8.txt | mecab -O wakati | nkf -w > wn-mor.txt
% head wn-mor.txt
一 
吾輩 は 猫 で ある 。 
名前 は まだ 無い 。 
どこ で 生れ た か とんと 見当 が つか ぬ 。 
何 でも 薄暗い じめじめ し た 所 で ニャーニャー 泣い て いた事 だけ は 記憶 し て いる 。 

(4) ランダム文生成

形態素解析結果を使ってランダムな文章生成。
10年前に書いた記事をベースにスクリプト作成。
(参考:RSS を読み込んでランダムな文章を生成する[2008-09-07-3])

文生成スクリプト: gen.pl
#!/usr/bin/env perl
# -*- coding: utf-8 -*-
use strict;
use warnings;
use utf8;
use open ":utf8";
binmode STDIN, ":utf8";
binmode STDOUT, ":utf8";

my %next_words;
while (<>) {
    chomp;
    my $pre = "";
    foreach my $w (split(/ /)) {
        next if ($pre eq "" and $w eq "");
        push @{$next_words{$pre}}, $w;
        $pre = $w;
    }
    push @{$next_words{$pre}}, "";
}

my @words;
my $cur = "";
for (my $i = 0; $i < 200; $i++) {
    my $tmp = $next_words{$cur};
    $cur = $tmp->[rand(@$tmp)];
    last if $cur eq "" and $i > 100;
    push @words, $cur;
}

print join("", @words), "\n";

実行:
% ./gen.pl wn-mor.txt

結果をいくつか:
「もう笑って」「君及びません。あなたがね、あまりふくれてからおいてしまうです。彼のをしようじゃありましょう。「この人をとったろうと座敷へでギャーと寒月君は迷惑の野原なりを賞めえ大分見聞し得る限りの材料払底な路次から、来客で、二十年くらいでも仕方が張るの癇癪が出来ない。もろ肌を客人は宇宙の境に相違ない。
「危きに招魂社へへとったって——吾輩は礼に賄賂でもよかろう。権利とへ流れ流れた時はそんなに野暮の刑にやってるじゃあるから、聞いてはなぜ、しまいに——取れそうであるまいと存候間板へ出掛けた」主人は、解して智謀を引き据えて、御前が気の毒であるではベースボール即ちピラミッドのが逆施すで自己のいいのにと云うと云う人の水のようによらず内心少々提灯玉え付けても御座候
「懸かりません。「大和魂の広い学校のだと心がね」即ち攻城的の根本的智識も譲らない、実業家の青年だけ御手数がねえ叔母さん」天下に剥げかかった事はなら何も出せないと忠告しても同じ材料が妙答は吾輩のが、朝鮮にさ。「右の禿のせいだね。彼等は華族様ね」一番仕舞に渡す。「面白いもの」

それっぽい文章が生成されています。
もちろん意味不明ですが。

岡山で開催中の言語処理学会年次大会2018。
(随時追記)

言語処理学会年次大会 2018


3月12日(月)10:30-チュートリアル / 午前 若手企画,午後 通常企画,夕方 スポンサーイブニング
3月13日(火)9:00-本会議 第1日 / 午前 招待講演1
3月14日(水)9:00-本会議 第2日 / 午後 ミニシンポジウム,夕方 懇親会
3月15日(木)9:00-本会議 第3日 / 午後 招待講演2, 招待論文
3月16日(金)9:30-ワークショップ

2年ぶりに参加。
場所は岡山。
13日正午に現地入り。

岡山に到着

総会に参加。
お弁当が出る。
岡山の美味しいものが詰まっているそう。
これはほんと美味しかった。
ごちそうさまでした。

三好野本店 お弁当

企業の展示。

言語処理学会年次大会 2018 言語処理学会年次大会 2018

口頭発表。

言語処理学会年次大会 2018 言語処理学会年次大会2018

ポスターセッション。

ポスターセッション

懇親会。

NLP2018 懇親会
NLP2018 懇親会 NLP2018 懇親会

二次会(岩倉会)。

懇親会の後の会

三次会。

懇親会の後の会

泊まったホテル。
ダイワロイヤルネットホテル。
ずっとダロワイヤだと思ってた。

泊まったホテル

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 [ 次へ ]

たつをの ChangeLog
Powered by chalow