UTF-8 の文字にマッチする正規表現
2006-03-09-1
[Programming]
UTF-8の文字にマッチする正規表現の素直版。
レガシーなのに対応するとき用にメモ。
追記060311: もっと短くても良いそうです。
<http://blog.livedoor.jp/dankogai/archives/50410033.html>
レガシーなのに対応するとき用にメモ。
[\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}|[\xF0-\xF7]
[\x80-\xBF]{3}|[\xF8-\xFB][\x80-\xBF]{4}|[\xFC-\xFD][\x80-\xBF]{5}
| 1 | 2 | 3 | 4 | 5 | 6 |
| 0xxxxxxx | |||||
| 110xxxxx | 10xxxxxx | ||||
| 1110xxxx | 10xxxxxx | 10xxxxxx | |||
| 11110xxx | 10xxxxxx | 10xxxxxx | 10xxxxxx | ||
| 111110xx | 10xxxxxx | 10xxxxxx | 10xxxxxx | 10xxxxxx | |
| 1111110x | 10xxxxxx | 10xxxxxx | 10xxxxxx | 10xxxxxx | 10xxxxxx |
追記060311: もっと短くても良いそうです。
[\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}|
[\xF0-\xF7][\x80-\xBF]{3}
ref. 404 Blog Not Found:UTF-8 vs. ISO-10646<http://blog.livedoor.jp/dankogai/archives/50410033.html>
この記事に言及しているこのブログ内の記事
