我目前正在使用Beautiful Soup来解析HTML文件并调用get_text()
,但似乎我留下了很多\xa0 Unicode表示空间。在python2.7中是否有一种有效的方法将它们全部删除,并将它们更改为空格?我想更普遍的问题应该是,有没有办法移除Unicode格式?
我尝试使用:line = line.replace(u'\xa0',' ')
,正如另一个线程所建议的,但这改变了\xa0的u,所以现在我到处都有“u”。):
编辑:这个问题似乎通过str.replace(u'\xa0', ' ').encode('utf-8')
解决了,但是只使用.encode('utf-8')
而不使用replace()
似乎会导致它吐出更奇怪的字符,例如\xc2。有人能解释一下吗?