UnicodeDecodeError: & # 39; use utf8 # 39;编解码器无法解码位置0中的0xa5字节:无效的开始字节

我使用Python-2.6 CGI脚本,但在服务器日志中发现这个错误,而做json.dumps()

Traceback (most recent call last):
File "/etc/mongodb/server/cgi-bin/getstats.py", line 135, in <module>
print json.dumps(​​__get​data())
File "/usr/lib/python2.7/json/__init__.py", line 231, in dumps
return _default_encoder.encode(obj)
File "/usr/lib/python2.7/json/encoder.py", line 201, in encode
chunks = self.iterencode(o, _one_shot=True)
File "/usr/lib/python2.7/json/encoder.py", line 264, in iterencode
return _iterencode(o, 0)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xa5 in position 0: invalid start byte

在这里,

​__get​data()函数返回dictionary {}

在发布这个问题之前,我已经引用了问题os SO的这< a href = " https://stackoverflow.com/questions/6180521/unicodedecodeerror-utf8-codec-cant-decode-bytes-in-position-3-6-invalid-dat " > < / >


更新

下面一行是伤害JSON编码器,

now = datetime.datetime.now()
now = datetime.datetime.strftime(now, '%Y-%m-%dT%H:%M:%S.%fZ')
print json.dumps({'current_time': now}) # this is the culprit

我有个临时解决办法

print json.dumps( {'old_time': now.encode('ISO-8859-1').strip() })

但我不确定这是正确的做法。

1516698 次浏览

这个错误是因为字典中有一些非ascii字符,它不能被编码/解码。避免此错误的一个简单方法是使用encode()函数对这样的字符串进行编码,如下所示(如果a是非ascii字符的字符串):

a.encode('utf-8').strip()

下面一行是伤害JSON编码器,

now = datetime.datetime.now()
now = datetime.datetime.strftime(now, '%Y-%m-%dT%H:%M:%S.%fZ')
print json.dumps({'current_time': now}) // this is the culprit

我有个临时解决办法

print json.dumps( {'old_time': now.encode('ISO-8859-1').strip() })

将此标记为正确的临时修复(不确定)。

在代码顶部设置默认编码器

import sys
reload(sys)
sys.setdefaultencoding("ISO-8859-1")

字符串中编码了一个非ascii字符。

如果你需要在代码中使用其他编码,可能会发生无法用utf-8解码的情况。例如:

>>> 'my weird character \x96'.decode('utf-8')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x96 in position 19: invalid start byte

在这种情况下,编码是windows-1252,所以你必须做:

>>> 'my weird character \x96'.decode('windows-1252')
u'my weird character \u2013'

现在你有了Unicode,你可以安全地编码到utf-8

在尝试了上述所有的解决方法之后,如果它仍然抛出相同的错误,您可以尝试将文件导出为CSV(如果已经导出了,则可以第二次导出)。 特别是如果你正在使用scikit learn,最好将数据集import作为CSV file

我花了好几个小时在一起,而解决办法就这么简单。将文件导出为CSV到Anaconda或您的分类器工具安装的目录,并尝试。

试试下面的代码片段:

with open(path, 'rb') as f:
text = f.read()

截至2018-05,这是直接处理decode,至少对于Python 3

我使用下面的代码段来处理invalid start byteinvalid continuation byte类型错误。添加errors='ignore'为我解决了这个问题。

with open(out_file, 'rb') as f:
for line in f:
print(line.decode(errors='ignore'))

我通过在read_csv()命令中定义一个不同的编解码器包来简单地切换:

encoding = 'unicode_escape'

例如:

import pandas as pd
data = pd.read_csv(filename, encoding= 'unicode_escape')

灵感来自@aaronpenne和@Soumyaansh

f = open("file.txt", "rb")
text = f.read().decode(errors='replace')

如果上面的方法对你不起作用,你可能想要改变csv file本身的encoding

使用Excel:

  1. 使用Excel打开csv文件
  2. 导航到文件菜单选项并单击另存为
  3. 单击浏览选择保存文件的位置
  4. 输入指定的文件名
  5. 选择CSV (Comma delimited) (*.csv)选项
  6. 单击“工具”下拉框,单击“网络选项
  7. 编码选项卡下,从另存此文档为下拉列表中选择选项Unicode (UTF-8)
  8. 保存文件

使用记事本:

  1. 使用记事本打开csv file
  2. 导航到文件 >另存为选项
  3. 接下来,选择文件的位置
  4. 选择保存类型选项为所有文件()
  5. 指定扩展名为.csv的文件名
  6. 编码下拉列表中,选择UTF-8选项。
  7. 单击“Save”保存文件

通过这样做,你应该能够import csv文件而不会遇到UnicodeCodeError. conf文件。

在读取csv时,我添加了一个编码方法:

import pandas as pd
dataset = pd.read_csv('sample_data.csv', header= 0,
encoding= 'unicode_escape')

您可以使用特定用法和输入的任何标准编码。

utf-8是默认值。

iso8859-1在西欧也很受欢迎。

例句:bytes_obj.decode('iso8859-1')

看:文档

简单的解决方案:

import pandas as pd
df = pd.read_csv('file_name.csv', engine='python')

这个解决方案对我很有效:

import pandas as pd
data = pd.read_csv("training.csv", encoding = 'unicode_escape')

与其寻找解码a5 (Yen ¥)或96 (en-dash )的方法,不如告诉MySQL你的客户端编码为“latin1”,但你想在数据库中使用“utf8”。

详见UTF-8字符的问题;我看到的不是我储存的

在我的情况下,我必须将文件保存为UTF8与BOM而不仅仅是UTF8 utf8,然后这个错误就消失了。

from io import BytesIO


df = pd.read_excel(BytesIO(bytes_content), engine='openpyxl')

为我工作

下面的代码片段对我很有用。

import pandas as pd
df = pd.read_csv(filename, sep = ';', encoding = 'latin1', error_bad_lines=False) #error_bad_lines is avoid single line error

当我试图从sharepoint上的excel表格导入到pandas数据框架时,我遇到了同样的错误。我的解决方案是使用engine='openpyxl'。我还使用requests_negotiate_sspi来避免以纯文本形式存储密码。

import requests
from io import BytesIO
from requests_negotiate_sspi import HttpNegotiateAuth
cert = r'c:\path_to\saved_certificate.cer'
target_file_url = r'https://share.companydomain.com/sites/Sitename/folder/excel_file.xlsx'
response = requests.get(target_file_url, auth=HttpNegotiateAuth(), verify=cert)
df = pd.read_excel(BytesIO(response.content), engine='openpyxl', sheet_name='Sheet1')

简单的解决方案:

import pandas as pd


df = pd.read_csv('file_name.csv', engine='python-fwf')

如果它不起作用,尝试将engine更改为'python''c'