是否有一套用于testing字符编码问题的“Lorem ipsums”文件?
对于布局,我们有我们着名的“Lorem ipsum”文本来testing它的样子。
我正在寻找的是一组包含文本的文件,这些文件使用几种不同的编码进行编码,我可以在JUnittesting中使用这些编码来testing某些读取文本文件时处理字符编码的方法。
例:
拥有ISO 8859-1
编码的testing文件和Windows-1252
编码的testing文件。 Windows-1252必须触发区域80 16 – 9F 16的区别。 换句话说,它必须包含至less一个这个区域的字符,以区别于ISO 8859-1。
也许最好的一组testing文件是每个编码的testing文件包含其所有字符一次。 但也许我不知道……我们都喜欢这个编码的东西,对吧? 🙂
是否有这样一组用于字符编码问题的testing文件?
如何尝试使用ICUtesting套件文件? 我不知道他们是否是你需要testing的东西,但是他们似乎至less有UTF映射文件的完整性: 链接到ICUtesting文件的回购
维基百科有关变音符号的文章非常全面,不幸的是,您必须手动提取这些字符。 也可能存在一些每种语言的助记符。 例如在波兰我们使用:
Zażółćgęśląjaźń
其中包含所有9个波兰变音符号在一个正确的句子。 另一个有用的search提示是大小写 : 使用每个字母至less一次的句子 :
在西class牙文中,“ El velozmurciélagohindúcomíafeliz cardillo y kiwi。Lacigüeñatocaba elsaxofóndetrásdel palenque de paja。 ”(全部27个字母和变音符号)。
在俄语中,“ Съешьжеещёэтихмягкихфранцузскихбулок,давыпейчаю ”(全部33个俄文西里尔字母)。
Pangrams列表包含一个详尽的总结。 任何人都在意这个简单的包装:
public interface NationalCharacters { String spanish(); String russian(); //... }
图书馆?
我不知道任何完整的文本文件,但是如果您可以从所有字符集的简单概述开始,则可以在ftp.unicode.org服务器上使用一些文件
以WINDOWS-1252为例。 第一列是hex字符值,第二列是unicode值。
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT
那么,我已经使用在线工具来创build我的文字字符集从Lorem Ipsum。 我相信它可以帮助你。 我没有一个单一的页面中有所有不同的字符集。