たつをの ChangeLog

29 件 見つかりました。

1 2 3 4 5 6 [ 次へ ]

Perl の標準ライブラリ Search::Dict を使った転置インデックスによる類似テキスト検索スクリプト
  • https://chalow.net/2022-01-17-2.html
  • Perl の標準ライブラリ Search::Dict を使った転置インデックスによる類似テキスト検索スクリプト[Algorithm][NLP][Programming][Perl][Release] 手元でのちょっとした用途で類似テキスト検索をやりたいのですが、Linux環境であれこれインストールしなくても動かせて、気ままにカスタマイズできる気が利いたやつがなかったので、改めて作ってみました。過去に何度も書いたことのあるプログラムなので目新しさはありませんが。(「車輪の再発明を気にしない」が私の行動指針です!)[simpii]yto/simpii: Simple Inverted Index Searchhttps://github.com/yto/simpii私の母プログラミング言語(母語)である Perl で書いています。標準ライブラリしか使っていないので、Perl さえインストールすればどこでも動くはずです。転置インデックス(+リランキング)用のスクリプトと、リランキングだけするスクリプトがあります。リランキング時のスコア計算方法は README.md を参照されたし。関連記事転置インデックスによる検索システムを作ってみよう![2007-11-26-5]simpii は、14年前に書いたこれの改訂版みたいな位置づけです。ソート済みのテキストファイルを二分探索で高速検索する Perl 標準モジュール「Search::Dict」[2013-08-01-1]インデックス検索部分はこれを使っています。Algorithm::Diff で類似文字列検索[2008-04-22-3]
cut と fold のUTF8対応版
  • https://chalow.net/2018-12-11-1.html
  • cut と fold のUTF8対応版[Perl][Programming] 素の cut (-c) と fold コマンドは UTF-8 の文字列に対して途中で切っちゃうこともあって文字化けして困る。cut と fold のUTF8対応版が欲しい。流石にネットのどこかにあるだろうと思って探してみたんだけど、探し方が悪かったのかすぐには見つからず。3分くらいがんばって調べてみたけど、こりゃ作った方が早いな、ということで車輪の再発明。ざっくりと perl で書いています。cut8 - UTF8対応cut"-c" オプションのみ。#!/usr/bin/perluse strict;use warnings;use Getopt::Long;use open ':utf8';binmode STDIN, ":utf8";binmode STDOUT, ":utf8";my $cps_str = ""; # character positionsGetOptions("c=s" => \$cps_str);my @cps = sort {_toint($a) <=> _toint($b)} split(/,/, $cps_str);sub _toint {$_[0] =~ /^(\d+)/; $1}while (<>) { chomp; my @c = split(//, $_); foreach my $cp (@cps) {if ($cp =~ /^(\d+)-(\d+)$/) { print map {defined $_ ? $_ : ""} @c[($1-1)..($2-1)];} else { print $c[$cp-1]||"";} } print "\n";}echo "あいうえおかきくけこ" | cut8 -c 1-3,7-9あいうきくけfold8 - UTF8対応fold"-w" オプションのみ。#!/usr/bin/perluse strict;use warnings;use Getopt::Long;use open ':utf8';binmode STDIN, ":utf8";binmode STDOUT, ":utf8";my $width = 80;GetOptions("width=s" => \$width);while (<>) { chomp; my $line = $_; if (length($line)) { while ($line =~ s/^(.{$width})//) { print "$1\n"; } next if not length($line); } print "$line\n";}echo "あいうえおかきくけこ" | fold8 -w 4あいうえおかきくけこ(追記190325: fold8 の空行が出ないバグを修正)
アマゾンの画像を自由自在にbufferに取り込みたい
  • https://chalow.net/2018-10-12-1.html
  • アマゾンの画像を自由自在にbufferに取り込みたい[Programming][Affiliate] 自分用メモ。アマゾンのドメインのどんな画像URLでもそのままbufferで扱えるようにしたい。うまく扱えない画像は以下のものがある。一部のバナー画像URL に「+」が含まれている画像(主に書影)いちいちローカルにdownloadしてからbufferにuploadするの面倒。なので、それ用のミニマムなツールを作った。結局、1ページのみのCMSみたいなものになった。こういう件では、車輪の再発明は気にしない。自分で作った方が速いし、細かい調整も楽だし。課題アマゾンのURLをbuffer(の入力フォーム)に貼るとき、画像が取り込めないことがある画像URL (.../*.jpg など) を直接bufferに貼っても画像は取り込めないなんとかしたい解決策誰でもアクセスできるページ(permalinkあり)を自由にHTML編集できる簡単で安全なCMSimgタグで画像URLを貼り保存ののち、そのページのURLをbufferに入力bufferに画像を取り込んだら用済み実装「TextAreaWiki」をベースに (ref. [2018-10-09-1])Editor (CGI) でユーザがHTMLを編集するEditor は「https + Basic認証」なところに置かれるので安全Editor はpermalinkに対応するディレクトリにHTMLファイルを出力キャッシュ対策で、permalink URLの末尾にUTCを足す (例:.../cms/?1234567890)実行画面キャプチャEditor (https://.../opc.cgi)[OnePageCMS for buffer]出力先 permalink (https://.../cms/?1234567890)[OnePageCMS for buffer]permalink を buffer に貼った様子(画像を選択したのち、本命テキストに置き換える)[opc to buffer]Tips横長・縦長すぎるバナーはbufferに読み込まれないので、画像URLで「CR」を用いてクロップする例: yurucamp_vol7_desktop_gw_1500x300_20181003._CR250,0,950,300_.jpg(うまくいかないこともある)参考: Amazon商品画像のカスタマイズ(理論編) - Shiz LabsURL に「+」が含まれている書影画像はASIN入りの URL に変換して使用するbad: //images-fe.ssl-images-amazon.com/images/I/51mWcqy%2BipL.jpgok: //images-fe.ssl-images-amazon.com/images/P/B00UAAK07S.09.jpg参考: HTTPS時代のURLパラメータによるAmazon商品画像加工[2018-05-28-1]
Twitter API 経由でキーワード検索して TSV 出力するコマンドラインスクリプト「twigrep」を公開しました
  • https://chalow.net/2017-08-28-1.html
  • Twitter API 経由でキーワード検索して TSV 出力するコマンドラインスクリプト「twigrep」を公開しました[Programming][Perl][Release] コマンドラインで簡単に Twitter を検索できるスクリプトが手元にあるのですが、それを整理して github で公開しました。特に画期的なポイントはないし、車輪の再発明的なものではありますが、いつも便利に使っているので公開しとこうかなー、と。twigrep - witter API でキーワード検索して TSV 出力するコマンドラインスクリプト実行例:perl twigrep.pl -q '検索 Twitter API'who_you_me_20122017-08-24 00:18:03「API 変更」でTwitter検索かけるとやっぱりみんな混乱してるみたいloftkun2017-08-23 22:11:52[夏研ブログ][不定期紹介] こんなブログ記事書いてます ツイキャスAPIを...KoheiYamashita2017-08-23 09:04:25Twitterの公式って検索タブでジャンル的なカテゴリからツイート探せ...トークンは自分で取得したのをご利用ください。参考GET search/tweets — Twitter DevelopersTwitter REST APIの使い方TwitterのApplication-only authenticationをperlで試す。 - BSDあれこれ
毎日更新!「はてなブログ被ブクマ数ランキング」をリリース
  • https://chalow.net/2016-09-15-1.html
  • 毎日更新!「はてなブログ被ブクマ数ランキング」をリリース[Release][HatenaWork] 「はてなブログ」を対象とした被ブクマ数トップ1000のランキングを公開。「こういうの昔あったよねー」と思いながら作りました。温故知新、車輪の再発明、歴史はめぐる。ランキングは毎日更新されます。はてなブログ被ブクマ数ランキングhttp://hatebu.ta2o.net/hbrank/「はてなブログ読者数ランキング」と同じく、ランキングの対象となっているはてなブログは「ここ数ヶ月にはてなブログ限定のホットエントリと新着エントリに登場したもの」の一部です。そのため最近更新がないメジャーなブログが抜け落ちています。そのうち対処します。参考毎日更新!「はてなブログ読者数ランキング」をどうぞ[2016-09-14-1]はてなブログ読者数ランキングhttp://hatebu.ta2o.net/subscrank/ブログランキングサイト [TopHatenar]http://tophatenar.com/はてなブログ読者登録数ランキング〜2016年秋〜 - ゆとりずむhttp://www.yutorism.jp/entry/subscriber201609

1 2 3 4 5 6 [ 次へ ]

たつをの ChangeLog
Powered by chalow