在我们的应用程序中,我们从不同的来源接收文本文件(.txt
, .csv
等)。读取时,这些文件有时包含垃圾,因为这些文件是在不同的/未知的代码页中创建的。
是否有一种方法(自动)检测文本文件的代码页?
detectEncodingFromByteOrderMarks
,在StreamReader
构造函数上,适用于UTF8
和其他unicode标记的文件,但我正在寻找一种方法来检测代码页,如ibm850
, windows1252
。
谢谢你的回答,这就是我所做的。
我们收到的文件来自最终用户,他们没有关于代码页的线索。接收者也是最终用户,到目前为止,这是他们对代码页的了解:代码页存在,并且令人讨厌。
解决方案: