UTF-8 の文字にマッチする正規表現
2006-03-09-1
[Programming]
UTF-8の文字にマッチする正規表現の素直版。
レガシーなのに対応するとき用にメモ。
追記060311: もっと短くても良いそうです。
<http://blog.livedoor.jp/dankogai/archives/50410033.html>
レガシーなのに対応するとき用にメモ。
[\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}|[\xF0-\xF7] [\x80-\xBF]{3}|[\xF8-\xFB][\x80-\xBF]{4}|[\xFC-\xFD][\x80-\xBF]{5}
1 | 2 | 3 | 4 | 5 | 6 |
0xxxxxxx | |||||
110xxxxx | 10xxxxxx | ||||
1110xxxx | 10xxxxxx | 10xxxxxx | |||
11110xxx | 10xxxxxx | 10xxxxxx | 10xxxxxx | ||
111110xx | 10xxxxxx | 10xxxxxx | 10xxxxxx | 10xxxxxx | |
1111110x | 10xxxxxx | 10xxxxxx | 10xxxxxx | 10xxxxxx | 10xxxxxx |
追記060311: もっと短くても良いそうです。
ref. 404 Blog Not Found:UTF-8 vs. ISO-10646[\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}| [\xF0-\xF7][\x80-\xBF]{3}
<http://blog.livedoor.jp/dankogai/archives/50410033.html>
この記事に言及しているこのブログ内の記事