如何检测文本文件的编码/编码页?

在我们的应用程序中,我们从不同的来源接收文本文件(.txt.csv等)。读取时,这些文件有时包含垃圾,因为这些文件是在不同的/未知的代码页中创建的。

是否有一种方法(自动)检测文本文件的代码页?

detectEncodingFromByteOrderMarks,在StreamReader构造函数上,适用于UTF8和其他unicode标记的文件,但我正在寻找一种方法来检测代码页,如ibm850windows1252


谢谢你的回答,这就是我所做的。

我们收到的文件来自最终用户,他们没有关于代码页的线索。接收者也是最终用户,到目前为止,这是他们对代码页的了解:代码页存在,并且令人讨厌。

解决方案:

  • 在记事本中打开收到的文件,查看一段乱码的文本。如果有人叫François之类的,凭你的智商你就能猜出来。
  • 我已经创建了一个小应用程序,用户可以使用它打开文件,并输入用户知道它将出现在文件中的文本,当使用正确的代码页时。
  • 遍历所有代码页,并显示包含用户提供的文本的解决方案的代码页。
  • 如果多个代码页同时弹出,请用户指定更多文本。
313928 次浏览

StreamReader类的构造函数接受一个“detect encoding”参数。

如果您正在寻找检测非utf编码(即没有BOM),那么您基本上需要对文本进行启发式和统计分析。你可能想看一看关于通用字符集检测的Mozilla论文 (同样的链接,通过Wayback Machine有更好的格式)。

得到了同样的问题,但没有找到一个好的解决方案来自动检测它。 现在我使用PsPad (www.pspad.com)为那;)工作很好< / p >

你不能检测到代码页,你需要被告知。您可以分析字节并猜测它,但这可能会给出一些奇怪(有时很有趣)的结果。我现在找不到它,但我相信记事本可以被骗用中文显示英文文本。

不管怎样,这是你需要读的: 每个软件开发人员必须绝对、肯定地了解Unicode和字符集(没有借口!) . < / p >

乔尔特别说:

关于编码的最重要的事实

如果你完全忘记了我刚才解释的一切,请记住一个极其重要的事实。拥有一个不知道它使用什么编码的字符串是没有意义的。你不能再把头埋在沙子里,假装“普通”文本是ASCII。

.没有什么是纯文本

如果你有一个字符串,在内存中,在文件中,或在电子邮件消息中,你必须知道它是什么编码,否则你不能正确地解释它或向用户显示它。

我在Python中做过类似的事情。基本上,您需要来自各种编码的大量示例数据,这些数据由一个滑动的两字节窗口分解并存储在字典(散列)中,以提供编码列表值的字节对为键值。

给定这个字典(哈希),你把你的输入文本:

  • 如果它以任何BOM字符开头('\xfe\xff'用于UTF-16-BE, '\xff\xfe'用于UTF-16-LE, '\xef\xbb\xbf'用于UTF-8等),我将其视为建议
  • 如果不是,那么取足够大的文本样本,取样本的所有字节对,并选择从字典中建议的最不常见的编码。

如果您还对UTF编码文本进行了采样,这些文本以任何BOM开头,那么第二步将覆盖从第一步中遗漏的文本。

到目前为止,它对我来说是有效的(示例数据和后续输入数据是各种语言的字幕),错误率正在降低。

您无法检测到代码页

这显然是错误的。每个web浏览器都有某种通用字符集检测器来处理没有任何编码指示的页面。Firefox就有一个。您可以下载代码并查看它是如何执行的。参见一些文档在这里。基本上,这是一种启发式,但效果非常好。

给定合理数量的文本,甚至可以检测语言。

这是另一个我刚刚发现使用谷歌:

由于它基本上归结为启发式,因此使用以前从同一来源收到的文件的编码作为第一个提示可能会有所帮助。

大多数人(或应用程序)每次都以几乎相同的顺序做事,通常是在同一台机器上,所以当Bob创建一个.csv文件并将其发送给Mary时,它很可能总是使用Windows-1252或他的机器默认的任何文件。

在可能的情况下,一点客户培训也不会有什么坏处:-)

notepad++具有开箱即用的特性。它还支持对其进行更改。

我实际上是在寻找一种通用的,不是编程的方式来检测文件编码,但我还没有找到。 通过测试不同的编码,我发现我的文本是UTF-7。

所以我第一次做的是:

. StreamReader file = file . opentext (fullfilename)

我不得不把它改成: StreamReader file = new StreamReader(fullfilename, System.Text.Encoding.UTF7)

OpenText假设它是UTF-8。

你也可以这样创建StreamReader new StreamReader(fullfilename, true),第二个参数意味着它应该尝试从文件的byteordermark中检测编码,但这在我的例子中不起作用

我知道现在提这个问题已经很晚了,而且这个解决方案不会吸引一些人(因为它以英语为中心的偏见和缺乏统计/实证测试),但它对我来说非常有效,特别是在处理上传的CSV数据方面:

http://www.architectshack.com/TextFileEncodingDetector.ashx < a href = " http://www.architectshack.com/TextFileEncodingDetector.ashx " > < / >

优点:

  • 内置BOM检测
  • 默认/回退编码可定制
  • 相当可靠(以我的经验)的西欧文件包含一些奇异的数据(如法国名称)与混合UTF-8和拉丁-1风格的文件-基本上大部分美国和西欧环境。

注意:我是编写这个类的人,所以显然要持保留态度!:)

我使用这段代码来检测Unicode和windows默认的ansi代码页时读取文件。对于其他编码,需要手动或通过编程检查内容。这可以用来保存与打开时相同编码的文本。(我使用VB.NET)

'Works for Default and unicode (auto detect)
Dim mystreamreader As New StreamReader(LocalFileName, Encoding.Default)
MyEditTextBox.Text = mystreamreader.ReadToEnd()
Debug.Print(mystreamreader.CurrentEncoding.CodePage) 'Autodetected encoding
mystreamreader.Close()

你试过Mozilla通用字符集检测器的c#端口

http://code.google.com/p/ude/的例子

public static void Main(String[] args)
{
string filename = args[0];
using (FileStream fs = File.OpenRead(filename)) {
Ude.CharsetDetector cdet = new Ude.CharsetDetector();
cdet.Feed(fs);
cdet.DataEnd();
if (cdet.Charset != null) {
Console.WriteLine("Charset: {0}, confidence: {1}",
cdet.Charset, cdet.Confidence);
} else {
Console.WriteLine("Detection failed.");
}
}
}

如果你可以链接到C库,你可以使用libenca。看到http://cihar.com/software/enca/。从手册页:

Enca读取给定文本文件,或当没有给定时读取标准输入, 并使用有关他们语言的知识(必须由您支持)和 它混合了分析、统计分析、猜测和黑魔法

它是GPL v2。

在寻找不同的解决方案时,我发现

https://code.google.com/p/ude/ < a href = " https://code.google.com/p/ude/ " > < / >

这个溶液有点重。

我需要一些基本的编码检测,基于4个第一个字节和可能的xml字符集检测-所以我从互联网上取了一些样本源代码,并添加了稍微修改的版本

http://lists.w3.org/Archives/Public/www-validator/2002Aug/0084.html < a href = " http://lists.w3.org/Archives/Public/www-validator/2002Aug/0084.html " > < / >

为Java编写的。

    public static Encoding DetectEncoding(byte[] fileContent)
{
if (fileContent == null)
throw new ArgumentNullException();


if (fileContent.Length < 2)
return Encoding.ASCII;      // Default fallback


if (fileContent[0] == 0xff
&& fileContent[1] == 0xfe
&& (fileContent.Length < 4
|| fileContent[2] != 0
|| fileContent[3] != 0
)
)
return Encoding.Unicode;


if (fileContent[0] == 0xfe
&& fileContent[1] == 0xff
)
return Encoding.BigEndianUnicode;


if (fileContent.Length < 3)
return null;


if (fileContent[0] == 0xef && fileContent[1] == 0xbb && fileContent[2] == 0xbf)
return Encoding.UTF8;


if (fileContent[0] == 0x2b && fileContent[1] == 0x2f && fileContent[2] == 0x76)
return Encoding.UTF7;


if (fileContent.Length < 4)
return null;


if (fileContent[0] == 0xff && fileContent[1] == 0xfe && fileContent[2] == 0 && fileContent[3] == 0)
return Encoding.UTF32;


if (fileContent[0] == 0 && fileContent[1] == 0 && fileContent[2] == 0xfe && fileContent[3] == 0xff)
return Encoding.GetEncoding(12001);


String probe;
int len = fileContent.Length;


if( fileContent.Length >= 128 ) len = 128;
probe = Encoding.ASCII.GetString(fileContent, 0, len);


MatchCollection mc = Regex.Matches(probe, "^<\\?xml[^<>]*encoding[ \\t\\n\\r]?=[\\t\\n\\r]?['\"]([A-Za-z]([A-Za-z0-9._]|-)*)", RegexOptions.Singleline);
// Add '[0].Groups[1].Value' to the end to test regex


if( mc.Count == 1 && mc[0].Groups.Count >= 2 )
{
// Typically picks up 'UTF-8' string
Encoding enc = null;


try {
enc = Encoding.GetEncoding( mc[0].Groups[1].Value );
}catch (Exception ) { }


if( enc != null )
return enc;
}


return Encoding.ASCII;      // Default fallback
}

从文件中读取1024字节就足够了,但我加载的是整个文件。

“uchardet”工具使用每个字符集的字符频率分布模型很好地做到了这一点。更大的文件和更“典型”的文件具有更强的可信度(显然)。

在ubuntu上,你只需要apt-get install uchardet

在其他系统上,获取源文件、使用情况和使用方法;https://github.com/BYVoid/uchardet

作为ITmeze post的插件,我已经使用这个函数来转换c#端口的Mozilla通用字符集检测器的输出

    private Encoding GetEncodingFromString(string codePageName)
{
try
{
return Encoding.GetEncoding(codePageName);
}
catch
{
return Encoding.ASCII;
}
}

MSDN

如果有人在寻找一个93.9%的解决方案。这对我来说很管用:

public static class StreamExtension
{
/// <summary>
/// Convert the content to a string.
/// </summary>
/// <param name="stream">The stream.</param>
/// <returns></returns>
public static string ReadAsString(this Stream stream)
{
var startPosition = stream.Position;
try
{
// 1. Check for a BOM
// 2. or try with UTF-8. The most (86.3%) used encoding. Visit: http://w3techs.com/technologies/overview/character_encoding/all/
var streamReader = new StreamReader(stream, new UTF8Encoding(encoderShouldEmitUTF8Identifier: false, throwOnInvalidBytes: true), detectEncodingFromByteOrderMarks: true);
return streamReader.ReadToEnd();
}
catch (DecoderFallbackException ex)
{
stream.Position = startPosition;


// 3. The second most (6.7%) used encoding is ISO-8859-1. So use Windows-1252 (0.9%, also know as ANSI), which is a superset of ISO-8859-1.
var streamReader = new StreamReader(stream, Encoding.GetEncoding(1252));
return streamReader.ReadToEnd();
}
}
}

在AkelPad中打开文件(或只是复制/粘贴乱码文本),点击编辑->选择->重新编码…->检查“自动检测”。

感谢@Erik Aronesty提到uchardet

同时(相同的?)工具存在于linux: chardet.
或者,在cygwin上,你可能想使用:chardetect.

看:Chardet手册页:https://www.commandlinux.com/man-page/man1/chardetect.1.html

这将启发式地检测(猜测)每个给定文件的字符编码,并报告每个文件检测到的字符编码的名称和置信级别。

10Y(!)已经过去了,我仍然没有看到MS的好,非gpl的解决方案:IMultiLanguage2 API。

前面提到的大多数库都是基于Mozilla的UDE的——浏览器已经解决了类似的问题,这似乎是合理的。我不知道chrome的解决方案是什么,但自从IE 5.0 MS发布了他们的解决方案,它是:

  1. 没有gpl之类的许可问题,
  2. 可能是永远的支持和维护
  3. 给出丰富的输出-所有编码/编码页的有效候选以及置信度分数,
  4. 非常容易使用(它是一个单一的函数调用)。

它是一个原生COM调用,但是由Carsten Zeumer编写的这里有一些非常好的作品处理了。net使用中的互操作混乱。周围还有一些其他的图书馆,但总的来说,这个图书馆没有得到应有的关注。

通过输入cpanm Text::Unaccent::PurePerl,这会生成一个build.log文件,在一些应用程序中显示为中文,在其他应用程序中显示为英文。cpanm是初始文本,一个合理的尝试,如果你足够幸运,在语言中有空格,是通过统计测试来比较单词的分布频率