Tag: utf 16

UTF-8,UTF-16和UTF-32

UTF-8,UTF-16和UTF-32之间有什么区别? 我明白,他们将全部存储Unicode,并且每个使用不同数量的字节来表示一个字符。 select一个在另一个之上有好处吗?

以二进制模式写入utf16文件

我试图写一个wstring与二进制模式ofstream文件,但我认为我做错了什么。 这是我试过的: ofstream outFile("test.txt", std::ios::out | std::ios::binary); wstring hello = L"hello"; outFile.write((char *) hello.c_str(), hello.length() * sizeof(wchar_t)); outFile.close(); 打开test.txt例如火狐编码设置为UTF16它将显示为: 你好 谁能告诉我为什么会发生这种情况? 编辑: 在hex编辑器中打开文件我得到: FF FE 68 00 00 00 65 00 00 00 6C 00 00 00 6C 00 00 00 6F 00 00 00 看起来我有两个额外的字节在每个字符之间出于某种原因?

BMP之外的JavaScriptstring

BMP是基本的多语言平面 根据JavaScript:好的部分 : JavaScript是在Unicode是16位字符集的时候构build的,所以JavaScript中的所有字符都是16位宽。 这使我相信JavaScript使用UCS-2(不是UTF-16!),只能处理高达U + FFFF的字符。 进一步调查证实了这一点: > String.fromCharCode(0x20001); fromCharCode方法在返回Unicode字符时似乎只使用最低16位。 尝试获得U + 20001(CJK统一表意文字20001)而不是返回U + 0001。 问题:是否可以在JavaScript中处理BMP后的字符? 2011-07-31:从Unicode支持 12张幻灯片: 好,坏,和(主要)丑陋涉及这个相当好的问题:

什么是Java的String的内部表示? 修改UTF-8? UTF-16?

我search了Java的内部表示string,但我有两个看起来可靠但不一致的材料。 一个是: http://www.codeguru.com/cpp/misc/misc/multi-lingualsupport/article.php/c10451 它说: Java使用UTF-16作为内部文本表示,并支持对string序列化的UTF-8进行非标准修改。 另一个是: http://en.wikipedia.org/wiki/UTF-8#Modified_UTF-8 它说: 对于Unicode数据的内部表示,Tcl也使用与Java相同的修改过的UTF-8 [25],但对外部数据使用严格的CESU-8。 修改UTF-8? 或者UTF-16? 哪一个是正确的? Java在内存中使用了多less个字节? 请让我知道哪一个是正确的,它使用多less字节。

我可以让git将文件识别为UTF-16文件吗?

我在git中跟踪一个虚拟PC虚拟机文件(* .vmc),在做一次改变之后,git将这个文件标识为二进制文件,并且不会对我进行区分。 我发现这个文件是用UTF-16编码的。 可以教git认识到这个文件是文本,并适当地处理它? 我在Cygwin下使用git,core.autocrlf设置为false。 如果需要,我可以在UNIX下使用mSysGit或git。