对于布局,我们有著名的“ Lorem ipsum”文本来测试它的外观。
我要找的是一组包含几种不同编码的 Text 的文件,我可以在 JUnit 测试中使用它们来测试一些在阅读文本文件时处理字符编码的方法。
例如:具有 ISO 8859-1
编码的测试文件和 Windows-1252
编码的测试文件。Windows-1252必须触发区域8016-9F16的差异。换句话说,它必须至少包含这个区域的一个字符,以区别于 ISO8859-1。
也许最好的测试文件集是每种编码的测试文件只包含其所有字符一次。但也许我没有意识到-我们都喜欢这种编码的东西,对不对?:-)
是否存在针对字符编码问题的测试文件集?