我从谷歌文档中提取数据,处理它,并将其写入文件(最终我将粘贴到Wordpress页面)。
它有一些非ascii符号。如何将这些安全转换为可以在HTML源代码中使用的符号?
目前,我正在将所有内容转换为Unicode,在一个Python字符串中将它们全部连接在一起,然后做:
import codecs
f = codecs.open('out.txt', mode="w", encoding="iso-8859-1")
f.write(all_html.encode("iso-8859-1", "replace"))
最后一行有一个编码错误:
UnicodeDecodeError: 'ascii' codec不能解码字节0xa0在位置 12286:序数不在范围(128)
部分解决方案:
这个Python运行时没有错误:
row = [unicode(x.strip()) if x is not None else u'' for x in row]
all_html = row[0] + "<br/>" + row[1]
f = open('out.txt', 'w')
f.write(all_html.encode("utf-8"))
但如果我打开实际的文本文件,我会看到很多像这样的符号:
Qur’an
也许我需要写一些东西,而不是一个文本文件?