在 Python 中,是否有一种标准方法来规范化 unicode 字符串,以便它只理解可以用来表示它的最简单的 unicode 实体?
我的意思是,能够把像 ['LATIN SMALL LETTER A', 'COMBINING ACUTE ACCENT']
这样的序列翻译成 ['LATIN SMALL LETTER A WITH ACUTE']
的东西?
看看问题出在哪里:
>>> import unicodedata
>>> char = "á"
>>> len(char)
1
>>> [ unicodedata.name(c) for c in char ]
['LATIN SMALL LETTER A WITH ACUTE']
但现在:
>>> char = "á"
>>> len(char)
2
>>> [ unicodedata.name(c) for c in char ]
['LATIN SMALL LETTER A', 'COMBINING ACUTE ACCENT']
当然,我可以迭代所有的字符并进行手动替换,等等,但这并不高效,而且我很确定我会错过一半的特殊情况,并出现错误。