根据您的经验,到目前为止哪些 Unicode 字符、代码点、 BMP (基本多语言平面)以外的范围是最常见的?这些代码在 UTF-8中需要4个字节,在 UTF-16中需要替代。
我本以为答案会是名字中使用的中文和日文字符,但是没有包含在最广泛使用的 CJK 多字节字符集中,但是在我做的工作最多的项目——英文维基词典中,我们发现到目前为止 哥特字母要普遍得多。
更新
我编写了一些软件工具来扫描整个维基百科中的非 BMP 字符,令我惊讶的是,即使在日文维基百科中,哥特字母也是最常见的。中文维基百科也是如此,但它也有许多中文字被使用了50或70次,包括“”、“”和“”。