UnicodeDecodeError: & # 39; use utf8 # 39;编解码器不能解码字节0x9c

小开

最佳答案

http://docs.python.org/howto/unicode.html#the-unicode-type

str = unicode(str, errors='replace')

或

str = unicode(str, errors='ignore')

注意: 这将剔除(忽略)有问题的字符，返回没有它们的字符串。

对我来说，这是理想的情况，因为我使用它作为保护，防止我的应用程序不允许的非ascii输入。

使用codecs模块中的open方法读入文件:

import codecs
with codecs.open(file_name, 'r', encoding='utf-8',
errors='ignore') as fdata:

小开

>>> '\x9c'.decode('cp1252')
u'\u0153'
>>> print '\x9c'.decode('cp1252')
œ

小开

以防有人有同样的问题。我正在使用vim与YouCompleteMe，未能启动ycmd与此错误消息，我所做的是:export LC_CTYPE="en_US.UTF-8"，问题已经解决。

小开

现在我已经迁移到Python 3，这类问题突然出现在我身上。我不知道Python 2只是简单地处理文件编码的问题。

我找到了这个关于差异的很好的解释，以及如何在以上都不适合我的情况下找到解决方案。

http://python-notes.curiousefficiency.org/en/latest/python3/text_file_processing.html

简而言之，要使Python 3的行为尽可能与Python 2相似，请使用:

with open(filename, encoding="latin-1") as datafile:
# work on datafile here

然而，阅读这篇文章，没有一个万能的解决方案。

小开

我与UnicodeDecodeError有同样的问题，我用这一行解决了它。我不知道这是不是最好的方法，但这对我来说很有效

str = str.decode('unicode_escape').encode('utf-8')

小开

把引擎从C改为Python对我来说很管用。

发动机为C:

pd.read_csv(gdp_path, sep='\t', engine='c')

'utf-8'编解码器无法解码位置18中的字节0x92:无效的开始字节

引擎是Python:

pd.read_csv(gdp_path, sep='\t', engine='python')

对我来说没有错误。

小开

如果需要对文件进行更改，但不知道文件的编码，该怎么办?如果你知道编码是ASCII兼容的，并且只想检查或修改ASCII部分，你可以使用surrogateescape错误处理程序打开文件:

with open(fname, 'r', encoding="ascii", errors="surrogateescape") as f:
data = f.read()

小开

首先，使用get_encoding_type获取encode的文件类型:

import os
from chardet import detect


# get file encoding type
def get_encoding_type(file):
with open(file, 'rb') as f:
rawdata = f.read()
return detect(rawdata)['encoding']

第二步，使用以下类型打开文件:

open(current_file, 'r', encoding = get_encoding_type, errors='ignore')

小开

当使用拉丁美洲口音时，这个解决方案很有效，比如“ñ”。

我已经通过加法解决了这个问题

df = pd.read_csv(fileName,encoding='latin1')

小开

Django-storage隐式支持以文本模式读取字节文件，直到Django-storage == 1.8
在https://github.com/jschneier/django-storages/pull/657中删除了支持
需要指定读取字节文件的二进制模式。

小开

如果像您说的那样，您只是想允许纯7位ASCII，那么就丢弃任何不是纯7位ASCII的字节。如果没有显式指定的编码，就没有直接的方法来猜测远端希望它们表示什么。

while bytes := socket.read_line_bytes():
try:
string = bytes.decode('us-ascii')
except UnicodeDecodeError as exc:
logger.warning('[%s] - rejected non-ASCII input %s' % (client, bytes.decode('us-ascii',  errors='backslashreplace'))
socket.write(b'421 communication error - non-ASCII content rejected\r\n')
continue
...

小开

我也犯了同样的错误。

对我来说，Python抱怨字节“;0x87"我在https://bytetool.web.app/en/ascii/code/0x87/上查找它，它告诉我这个字节属于Windows-1252编解码器。

然后我只在我的Python文件的开头添加了这一行:

#-*- encoding: Windows-1252 -*-"

所有的错误都消失了。在添加这一行之前，我曾尝试Pandas像这样导入文件:

Df = pd.read_csv(data, sep=",", engine='python', header=0, encoding='Windows-1252')

但是这返回了一个错误。所以我把它改成了这样:

Df = pd.read_csv(data, sep=",", engine='python', header=0)