最佳答案
我有一个套接字服务器,它应该从客户端接收UTF-8有效字符。
问题是一些客户端(主要是黑客)通过它发送所有错误类型的数据。
我可以很容易地区分真正的客户端,但我将发送的所有数据记录到文件中,以便以后进行分析。
有时我得到像œ
这样的字符,导致UnicodeDecodeError
错误。
我需要能够使字符串UTF-8与或没有这些字符。
更新:
对于我的特殊情况,套接字服务是一个MTA,因此我只希望接收ASCII命令,如:
EHLO example.com
MAIL FROM: <john.doe@example.com>
...
我用JSON记录了所有这些。
然后一些没有善意的人决定发送各种垃圾。
这就是为什么对于我的特定情况,剥离非ASCII字符是完全可以的。