たつをの ChangeLog
: 2023-06-07
前後の日:
2023-06-06
< >
2023-06-08
この月:
2023-06
別の年の同じ日:
2000
2001
2002
2003
2004
2005
2007
2008
2009
2010
2011
2013
2014
2015
2016
2017
2018
2019
2020
2023
日本語のテキスト処理の動作確認サンプルとして使うための日本語テキストデータは「日本国憲法」が無難
2023-06-07-1 [
NLP
][
Programming
]
日本語のテキスト処理の動作確認サンプルとして使うための日本語テキストデータの無難さ No.1 はなんといっても「日本国憲法」。
誰でも無料でネットから入手できる
大きすぎない、小さすぎない、手頃なサイズ
同じ単語や似た表現がそこそこ出てくる
ずっと変わらない内容(今後憲法が変わるとしても「昭和二十一年憲法」は不変)
著作権などもろもろの権利について考えなくて良い
(デメリット) 「思ふ」「負ふ」「受け取つた」などの旧仮名遣い
(デメリット) 「天皇」についての記述が含まれるため例示時に注意が必要
ということで、一行一文のテキストファイル (UTF-8) を用意したのでご自由にお使いください(新仮名遣い変換済み)。
許可なく再配布も自由。
nkkp.txt
(github)
ファイルサイズ: 28508バイト
行数: 224行
文字数 (改行文字除く): 9428文字
作り方(レシピ)
ウェブブラウザで
e-Gov法令検索
を開く
キーワード「憲法」で検索
「日本国憲法(昭和二十一年憲法)」の XML ダウンロード (拡張子は ".xml.zip")
XML ファイル内の Sentence タグ内のテキストのみを取り出す
Sentence 末以外の句点の後に改行文字を足す
旧仮名遣いを新仮名遣いに変換する
(4)(5)(6) の変換ツール
nkkp-conv.pl
。
変換実行:
unzip -p ~/Downloads/321CONSTITUTION_19470503_000000000000000_xml.zip \ | ./nkkp-conv.pl > nkkp.txt
この記事に言及しているこのブログ内の記事
マルコフ連鎖と形態素解析でランダムな文章を生成する (2023-06-08)
前後の日:
2023-06-06
< >
2023-06-08
この月:
2023-06
別の年の同じ日:
2000
2001
2002
2003
2004
2005
2007
2008
2009
2010
2011
2013
2014
2015
2016
2017
2018
2019
2020
2023
たつをの ChangeLog
Powered by
chalow