我正在阅读StringBuffer的文档,特别是reverse()方法。 那个文件提到了关于代理对的一些事情。 在这方面什么是代理对? 什么是低和高代理?
根据您的经验,目前最常见的是哪些Unicode字符,代码点,BMP(基础多语言平面)以外的范围? 这些是需要UTF-8中的4个字节或UTF-16中的替代项的。 我希望答案是中文和日文字符在名称中使用,但不包括在最广泛的CJK多字节字符集中,但在我最擅长的项目英文维基文库中,我们发现哥特字母是到目前为止更为普遍。 UPDATE 我已经写了几个软件工具来扫描整个维基百科的非BMP字符,发现令我惊讶的是,即使在日本维基百科中,哥特字母也是最常见的。 中文维基百科也是如此,但也有很多汉字被使用了50或70次,包括“𨭎”,“𠬠”和“𩷶”。
BMP是基本的多语言平面 根据JavaScript:好的部分 : JavaScript是在Unicode是16位字符集的时候构build的,所以JavaScript中的所有字符都是16位宽。 这使我相信JavaScript使用UCS-2(不是UTF-16!),只能处理高达U + FFFF的字符。 进一步调查证实了这一点: > String.fromCharCode(0x20001); fromCharCode方法在返回Unicode字符时似乎只使用最低16位。 尝试获得U + 20001(CJK统一表意文字20001)而不是返回U + 0001。 问题:是否可以在JavaScript中处理BMP后的字符? 2011-07-31:从Unicode支持 12张幻灯片: 好,坏,和(主要)丑陋涉及这个相当好的问题: