Tag: 全球化

如何检测文本文件的编码/代码页

在我们的应用程序中,我们接收来自不同来源的文本文件( .txt , .csv等)。 读取时,这些文件有时会包含垃圾,因为这些文件是在不同的/未知的代码页中创build的。 有没有办法(自动)检测文本文件的代码页? StreamReader构造函数中的detectEncodingFromByteOrderMarks适用于UTF8和其他unicode标记的文件,但是我正在寻找一种检测代码页的方法,例如ibm850 , ibm850 。 感谢您的回答,这就是我所做的。 我们收到的文件来自最终用户,他们没有关于代码页的线索。 接收者也是最终用户,到目前为止他们知道的关于代码页的问题:代码页存在,而且很烦人。 解: 在记事本中打开收到的文件,看一个乱码的文本。 如果有人被称为弗朗索瓦什么东西,用你的人类智慧,你可以猜测这个。 我创build了一个小应用程序,用户可以使用该应用程序打开文件,并在使用正确的代码页时input用户知道该文件将出现在文件中的文本。 循环遍历所有代码页,并显示用户提供的文本解决scheme。 如果popup更多的代码页,请让用户指定更多的文本。