我正在编写一个脚本,该脚本将尝试将字节编码到 Python 2.6中的许多不同编码中。有没有什么方法可以得到一个可用编码的列表,我可以迭代?
我尝试这样做的原因是因为用户有一些没有正确编码的文本。有很多有趣的角色。我知道是哪个 Unicode字符搞砸了。我希望能够给他们一个类似于“您的文本编辑器将字符串解释为 X 编码,而不是 Y 编码”的答案。我想我会尝试用一种编码方式对这个字符进行编码,然后再用另一种编码方式对它进行解码,看看我们是否得到了相同的字符序列。
例如:
for encoding1, encoding2 in itertools.permutation(encodinglist(), 2):
try:
unicode_string = my_unicode_character.encode(encoding1).decode(encoding2)
except:
pass