Unicode中汉字的完整范围是什么?
U + 4E00..U + 9FFF是完整集合的一部分,但不是全部
可能是你会find一个完整的列表,通过中日韩Unicode的常见问题 (其中包括“中文,日文和韩文”字符)
“ 东亚脚本 ”文件提到:
包含汉字的图块
Unicode表示字符在Unicode标准的五个主要块中find,如表12-2所示
表12-2。 包含汉字的图块
Block Range Comment CJK Unified Ideographs 4E00-9FFF Common CJK Unified Ideographs Extension A 3400-4DBF Rare CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
注意:块的范围可以随着时间的推移而变化:最新的是CJK统一表意文字 。
另见维基百科:
- 中日韩统一表意文字扩展A
- CJK统一表意文字扩展B
- 中日韩统一表意文字扩展C
- CJK统一表意文字扩展D
- 中日韩统一表意文字扩展E
Unicode目前有74605个CJK字符。 中日韩字符不仅包括汉字使用的字符,还包括日本汉字,韩国汉字和越南楚汉 。 一些CJK字符不是中文字符。
1)来自CJK Unified Ideographs块的 20941个字符。
代码点U + 4E00到U + 9FCC。
- U + 4E00 – U + 62FF
- U + 6300 – U + 77FF
- U + 7800 – U + 8CFF
- U + 8D00 – U + 9FCC
2) CJKUI分机A模块的 6582个字符。
代码点U + 3400到U + 4DB5 。 Unicode 3.0(1999)。
3)来自CJKUI Ext B块的 42711个字符。
代码点U + 20000到U + 2A6D6。 Unicode 3.1(2001)。
- U + 20000 – U + 215FF
- U + 21600 – U + 230FF
- U + 23100 – U + 245FF
- U + 24600 – U + 260FF
- U + 26100 – U + 275FF
- U + 27600 – U + 290FF
- U + 29100 – U + 2A6DF
3)来自CJKUI Ext C块的 4149个字符。
代码点U + 2A700到U + 2B734 。 Unicode 5.2(2009)。
4)来自CJKUI Ext D块的 222个字符。
代码点U + 2B740到U + 2B81D 。 Unicode 6.0(2010)。
5)CJKUI Ext E块。
快来了
如果以上不够意大利面条,看看已知的问题 。 玩得开心=)
中文字符的确切范围(扩展名除外)是[\u2E80-\u2FD5\u3400-\u4DBF\u4E00-\u9FCC]
。
-
[\u2e80-\u2fd5]
CJK Radicals Supplement是一个Unicode版块,其中包含康熙激进派别的替代性,常位置forms。 它们被用在字典索引和其他由激进笔划组织的CJK表意文字集合中。
-
[\u3400-\u4DBF]
CJK统一表意文字扩展-A是一个包含罕见汉字的Unicode代码块。
-
[\u4E00-\u9FCC]
中日韩统一表意文字是一个包含了现代汉语和日语中最常用的中日韩表意文字的Unicode块。
有关详细信息,请参阅此处 ,其他答案中提供了扩展名。
其他人回答的Unicode代码块肯定涵盖了大部分的中文Unicode字符,但也检查了其他一些代码块。
CJK_UNIFIED_IDEOGRAPHS CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E CJK_COMPATIBILITY CJK_COMPATIBILITY_FORMS CJK_COMPATIBILITY_IDEOGRAPHS CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT CJK_RADICALS_SUPPLEMENT CJK_STROKES CJK_SYMBOLS_AND_PUNCTUATION ENCLOSED_CJK_LETTERS_AND_MONTHS ENCLOSED_IDEOGRAPHIC_SUPPLEMENT KANGXI_RADICALS IDEOGRAPHIC_DESCRIPTION_CHARACTERS
看到我在这里更充分的讨论。 而且这个网站很方便浏览Unicode。