我正在处理一些数据文件,这些文件应该是有效的 UTF-8,但实际上并非如此,这会导致解析器(不在我的控制之下)失败。我想为 UTF-8格式良好性添加一个预验证数据的阶段,但是我还没有找到一个实用程序来帮助完成这项工作。
W3C 上有一个 网上服务似乎已经死了,我发现一个 Windows 验证的 工具报告了无效的 UTF-8文件,但是没有报告要修复的行/字符。
如果有一个工具我可以使用(理想情况下是跨平台的) ,或者一个 Ruby/perl 脚本,我可以将其作为我的数据加载过程的一部分,我会很高兴。