[を]CHALOW Search: IIR

たつをの ChangeLog

75 件見つかりました。

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 [ 次へ ]

マルコフ連鎖と形態素解析でランダムな文章を生成する

https://chalow.net/2023-06-08-1.html
マルコフ連鎖と形態素解析でランダムな文章を生成する[Programming][NLP][IIR][WebAPI] 15年前に書いた記事のリニューアル版です。RSS を読み込んでランダムな文章を生成する[2008-09-07-3]前回と同様、bigram language model に基づく、ランダム文生成を行います。ある単語の次に現れる単語の分布を用いて、文章を生成していくだけです。形態素解析（日本語の単語の認識）は、Yahoo!デベロッパーネットワークのテキスト解析 API の日本語形態素解析 (V2) を使います。ベースとなるテキストデータは「日本国憲法」(nkkp.txt) を使います (ref. [2023-06-07-1])。プログラム mamarkov-build.pl で、テキストデータ (nkkp.txt) を形態素解析し、「ある単語の次に現れる単語の分布」を計算し、データファイル (mamarkov-sample.tsv) に出力します。mamarkov-build.pl (github)nkkp.txt (github)mamarkov-sample.tsv (github)実行コマンド:cat nkkp.txt | ./mamarkov-build.pl > mamarkov-sample.tsvファイル:wc -l nkkp.txt 224 nkkp.txttail -1 nkkp.txt但し、この憲法によって、後任者が選挙又は任命されたときは、当然その地位を失う。wc -l mamarkov-sample.tsv 868 mamarkov-sample.tsvhead mamarkov-sample.tsv | tail -3あれば、、、、いないいかなる特権差別奴隷宗教宗教場合mamarkov-sample.tsv には「あれば」のあとには「、」しか現れない（4回）「いかなる」のあとに続く単語は「宗教」が2回、「特権」「差別」「奴隷」「場合」が1回ずつであるなどの統計情報（日本国憲法のテキストの）が格納されています。このデータファイル (mamarkov-sample.tsv) を用いて、プログラム mamarkov-gen.pl で新たなテキストを生成します。そのロジックは「RSS を読み込んでランダムな文章を生成する[2008-09-07-3]」で解説しているものと同じです。mamarkov-sample.tsv (github)mamarkov-gen.pl (github)実行コマンド:cat mamarkov-sample.tsv | ./mamarkov-gen.pl出力例:配偶者の国民の原理に、これを証拠とが欠けたときは、及び団体は、この憲法第二以上の多数でこれを、これを選任する。但し、又は一部の自由を委任ができる。信教の議事機関は、社会的、国会を有する終審と異なった議決にも、個人の安全とする。財産は、及び法律の下に保障及び残虐な刑罰を失う。何人も、国務大臣は、一般行政機関が日本国民は、内閣は、可否同数の全部又は法律の目的を経なければならない。関連記事RSS を読み込んでランダムな文章を生成する[2008-09-07-3]日本語のテキスト処理の動作確認サンプルとして使うための日本語テキストデータは「日本国憲法」が無難[2023-06-07-1]Yahoo! テキスト解析 API 日本語形態素解析 V2 の簡単な CLI です[2023-06-05-1]

「帰ってきた ONEDARI BOYS」の参加表明者リスト #onedari10

https://chalow.net/2016-01-28-6.html
「帰ってきた ONEDARI BOYS」の参加表明者リスト #onedari10[ONEDARI] ONEDARI BOYS 10周年イベント「帰ってきた ONEDARI BOYS」の参加表明者と情報リンクです。参加表明者Peatixのイベントページから、参加者の名前やIDをウェブ検索して作成しました。参加者は50人ほどで、ページ上に名前かIDが出ている人は半分くらい。（困る方は消しますのでご連絡ください→@yto）nakatanigoナカタニゴー(@nakatanigo)さん - Twitterゆきふる村上タクタTakuta(@Takuta)さん - Twitter村上琢太 - FacebookNorio Nakayamaのりお [中山記男](@norio_airoplane)さん - Twitter中山記男 - Facebook写真とレビューのブログ「エアロプレイン」脇村　隆wackey(@wackey)さん - Twitter脇村隆 - Facebook[Mu]ムジログ大熊マナミ大熊マナミ(@qtmode)さん - TwitterManami Okuma - FacebookQT/mode - Quality Time ModeTsuyoshi Fujitaフジタツヨシ(@fujita244)さん - Twitter藤田剛 - FacebookAkiko Wadaわだ◎(@wada_akiko)さん - Twitter和田亜希子 - FacebookWADA-blog（わだぶろぐ）koyhogeKOYAMA Tetsuji(@koyhoge)さん - Twitter小山哲志 - FacebookBlog::koyhoge::TechMayumi Aoki青木まゆみ - Facebookkfpauseぱうぜ(@kfpause)さん - TwitterカフェパウゼをあなたとKeisuke Kariyakeisuke kariya(@K_Kariya)さん - Twitter苅谷圭介 - Facebookgoyutakaさわだゆたか（ものづくりライター）(@goyutaka)さん - TwitterTOOLBOXーLIFELOGj9_stjake(@j9_st)さん - TwitterJ.logmuunen児嶋宗範 (muunen)(@muunen)さん - TwitterBlog @muunen山本　竜也山本竜也(@dreamseed)さん - Twitter山本竜也 - FacebookDream SeedHirano Yoko平野陽子 - FacebookMasanobu Ohara小原應信 - FacebookHaruka OhmoriHaruka Ohmori - Facebookはるかが行く！ - 生ビールブログ -とりあえず生！-ゆる酒珍道中Masayuki DAIGO (ダイゴマン)ダイゴマン(@daidaiiroo)さん - Twitterダイゴマサユキ - Facebookmobamemoモバメモ by ラテ(@mobamemo)さん - Twitterモバメモザ・ソフトドリンク早川結希ゆいき@おつまみ美女の人(@heron214)さん - Twitter早川結希 - FacebookYuiki Hayakawa Profile - Wantedlyくっくす！山根正也masa(@saya2926)さん - Twitter山根正也 - FacebookDigital Life Innovatorogikubo kei荻窪圭(@ogikubokei)さん - Twitter混沌の屋形風呂木村すらいむ木村すらいむ(@kimu3_slime)さん - Twitter文脈をつなぐむねさだむねさだ（わんぱくブロガー）(@mu_ne3)さん - TwitterむねさだブログONEDARI関係者主催者側の情報リンク。モダシン（おやっさん）@nagasawa144Modern Syntaxコグレマサト（ONEDARI レッド）@kogureネタフルいしたにまさき（ONEDARI グリーン）@masakiishitaniみたいもん！ジェット☆ダイスケ（ONEDARI ロボ）@jetdaisukeガジェットダイスケドットコム徳力基彦（ONEDARI イエロー）@tokurikitokuriki.com - AMN徳力のブログたつを（ONEDARI ピンクIII）@ytoたつをの ChangeLog司会：堀 E. 正岳（村人A）@mehoriLifehacking.jpライフ×メモ司会：タナカンプ（村人B）@sta7kaKAMPLOG咳をしても一人呑み？：ホシナカズキホシナカズキ(@cazuki)さん - Twittermbdb (モバデビ)関連記事ONEDARI BOYS 10周年イベントがあるよ！ 2016年1月29日[2016-01-28-5]

【Perl】コサイン類似度の計算

https://chalow.net/2015-06-29-1.html
【Perl】コサイン類似度の計算[Programming][Algorithm][Perl] 人生において何度も同じようなのを書いていますが、あらためて Perl によるコサイン類似度の計算。他で使っているコサイン類似度計算のコードの動作確認用。コマンドラインオプション：- "-c" : 出現頻度をそのまま使う。指定なしだと頻度は全て1。- "-t" : TF-IDF での頻度補正を行う。出力：- 入力された各行ごとに計算した類似度。- 先頭の二つの数字が入力行番号（1始まり）。■コード (cossim.pl)#!/usr/bin/env perluse strict;use warnings;use List::Util qw(sum);use Getopt::Long;my $opt_count = 0; # 実際の頻度を使用my $opt_tfidf = 0; # TF-IDF で頻度補正GetOptions( "count" => \$opt_count, "tfidf" => \$opt_tfidf,);### 入力my @ents;while (<>) { chomp; next if /^\s*$/; next if /^\#/; push @ents, [split(/\s+/, $_)];}### 出現頻度カウントmy $N = @ents;my @tf;my %df;for (my $i = 0; $i < $N; $i++) { if ($opt_count) { $tf[$i]{$_}++ for @{$ents[$i]}; } else { $tf[$i]{$_} = 1 for @{$ents[$i]}; } $df{$_}++ for keys %{$tf[$i]};}for (my $i = 0; $i < $N; $i++) { my @vals = values %{$tf[$i]}; if ($opt_tfidf) { my $n = sum(@vals); $tf[$i]{$_} = $tf[$i]{$_}/$n * log($N / $df{$_}) for keys %{$tf[$i]}; } my $len = sqrt(sum(map {$_**2} @vals)); # ベクトルの長さ $_ /= $len for values %{$tf[$i]}; # 長さで正規化}### 出力for (my $i = 0; $i < $N; $i++) { for (my $j = $i + 1; $j < $N; $j++) { my $sim = sum(map {$tf[$i]{$_} * ($tf[$j]{$_}||0)} keys %{$tf[$i]}); printf "%d %d %.8f\n", $i+1, $j+1, $sim; }}■実行例% cat test-1.txthoge huga huga foo foo foohoge hoge hoge huga% ./cossim.pl -c test-1.txt1 2 0.42257713(ref. [3])% cat test-2.txtリンゴリンゴバナナリンゴバナナミカン% ./cossim.pl test-2.txt1 2 0.81649658(ref. [4])% cat test-3.txt日本今日今日今日高校高校国語日本日本明日大学数学% ./cossim.pl -c test-3.txt1 2 0.19518001(ref. [5])% cat cossim-test.txt六本木渋谷恵比寿目黒目黒六本木渋谷渋谷恵比寿六本木六本木渋谷渋谷目黒% ./cossim.pl cossim-test.txt 1 2 0.866025401 3 0.866025402 3 0.66666667% ./cossim.pl -c cossim-test.txt1 2 0.617213401 3 0.755928952 3 0.81649658% ./cossim.pl -t cossim-test.txt1 2 0.003954901 3 0.003954902 3 0.00000000% ./cossim.pl -c -t cossim-test.txt1 2 0.001268391 3 0.001657022 3 0.00000000参考[1] コサイン類似度http://www.cse.kyoto-su.ac.jp/~g0846020/keywords/cosinSimilarity.html[2] IIR C6http://nlp.stanford.edu/IR-book/pdf/06vect.pdf[3] perlでコサイン類似度を算出 (end0tknrのkipple - web写経開発)http://d.hatena.ne.jp/end0tknr/20111021/1319162866[4] Perlでコサイン類似度を計算する (work.log)http://worklog.be/archives/3206[5] コサイン尺度（コサイン類似度）の計算 (Ceekz Logs)http://private.ceek.jp/archives/003891.html

【ヲハニュース 2015年5月18日号】バイラルメディアとかに写真を勝手に使われてしまう問題、カスタマイズ可能なJR時刻表アプリ、村上春樹風 404、など

https://chalow.net/2015-05-18-1.html
【ヲハニュース 2015年5月18日号】バイラルメディアとかに写真を勝手に使われてしまう問題、カスタマイズ可能なJR時刻表アプリ、村上春樹風 404、など[WohaNews] 2015年5月18日のヲハニュースをお届けします。[ウェブキャプチャ画像：404 ノット・ファウンド - あるいは、ページが存在しないことについて]▼404 ノット・ファウンド - あるいは、ページが存在しないことについて村上春樹風 404 NOT FOUND。URLが間違ってたりするときに表示されるエラーページ。説明がするりと入ってきてわかりやすいw▼ブロガーや写真愛好家の皆さん、勝手に写真を使われていますよ | しゅうまいの256倍ブログ neophilia++あらら。- パクリメディアに負けず頑張って一次情報を発信し続けよう | しゅうまいの256倍ブログ neophilia++▼あの美しい『ひたち海浜公園のネモフィラ』がＧＷ後にはこんな状態に！これはヒドイと嘆く声 - Togetterまとめひどいなあ。▼【サンリオ】『シナモン』へのリプが「もはやイジメ」「全然面白くないし不快」と苦言殺到 - Togetterまとめなんなんだろう。▼ライブによく行く人（特に女性）は耳栓を買ったほうがいい〜ライブ難聴で耳が聞こえなくなりました〜 - 二度漬け禁止これこれ。▼アップルでもサムスンでもなく、ソニーがシェア1位のものって？ : ギズモード・ジャパンなーんだ？▼リクルートからMITへ。ビッグデータ分析により人間の意思決定メカニズム解析に挑む数原良彦氏 - エンジニアtypeIIR輪講会でご一緒だった数原さん。いつのまにやらすごいことに。▼Peatixデータベースからセミナー・勉強会参加/無断欠席率を出してみた | Peatix Blog | イベント成功術！〜企画 x 運営 x 集客 x ソーシャルメディア活用法〜事前支払いがあるイベントの平均は90.1%、無料の場合は67.5%でした。Peatix Evangelistチームの肌感覚は、「有料9割、無料6割」といったところなので、大体合致しています。なるほど。▼flickrのアップロードできない問題は、オートアップロードアプリ配布に原因があるらしい | エアロプレインこれ困る。しばらく Flickr 謹製アプリ使ってた(iOS)。最近になって戻ってきたかな？▼『JR時刻表』がアプリに　カスタマイズ可能は世界初　「のぞみ」だけ表示もOK | 乗りものニュース交通新聞社は2015年5月15日（金）、タブレット端末用の時刻表アプリ「デジタルJR時刻表」のサービスを5月28日（木）から始めると発表しました。JRを中心に全国の列車時刻が掲載され駅の「みどりの窓口」に用意されている『JR時刻表』、そして首都圏エリアの詳細な列車時刻を掲載した同社の『MY LINE 東京時刻表』、この2冊・約2000ページの内容が収録されているそうです。利用料金は30日960円、180日5400円、365日9800円。

「Introduction to Information Retrieval」の日本語訳が出るそうです

https://chalow.net/2012-06-04-2.html
「Introduction to Information Retrieval」の日本語訳が出るそうです[IIR][Algorithm][Book] 2008-2009年に輪講した「Introduction to Information Retrieval」(IIR)の日本語訳が「情報検索の基礎」というタイトルで共立出版から出るそうです。2012/6/23に発売予定。■Christopher D.Manning, Prabhakar Raghavan, Hinrich Schutze (著), 岩野和生, 黒川利明, 濱田誠司, 村上明子 (翻訳) / 情報検索の基礎本書は,従来の古典的な情報検索から,最近のウエブの情報検索までの基礎をわかりやすく扱った,網羅的で最先端の入門書である。最初に,文書の前処理,インデックス化,逆インデックス,重み付け,スコア付け,検索システムの評価といった,情報検索の基礎,特にサーチエンジンに関わる話題をとりあげる。次に,より先進的な話題として,関連性のフィードバックやクエリー拡張を用いた検索の強化手法,構造化された文書からの情報検索,文書のスコア付けにおける確率論の応用といった話題をとりあげる。その後に,カテゴリー集合への分類問題,クラスター化の問題といった,様々な形の機械学習と数値手法を取り扱う。最後に,ウエブサーチの問題を扱う。情報検索に関わる,マーケティングから情報管理,コンピュータや言語情報に関連した理学系,工学系,経営系の学生・研究者・技術者にとって有用な1冊となるだろう。内容についてはいまさら紹介するものでもないですが、とにかくウェブ時代の情報検索のコアな技術や周辺技術を一通りカバーしており、この分野の基礎を学びたい人にはおススメです。私は原著を持っているので個人としては購入しない予定。■Introduction to Information Retrieval

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 [ 次へ ]

たつをの ChangeLog