一个字符、一个码位、一个字形和一个字素之间的区别是什么?

小开

在Unicode标准之外，字符是由一个或多个字母组成的单个文本单元。Unicode标准定义的“字符”实际上是字母和字符的混合体。Unicode提供了将并列的字素解释为单个字符的规则。

Unicode 码点是分配给每个Unicode字符的唯一数字(它可以是一个字符或一个字素)。

不幸的是，Unicode规则允许一些并列的字素被解释为其他已经有自己的码位的字素(预组合表单)。这意味着在Unicode中有不止一种表示字符的方法。Unicode正常化解决了这个问题。

字形是字符的视觉表示。字体为特定的一组字符(不是Unicode字符)提供一组字形。对于每个字符，都有无限个可能的字形。

回复Mark Amery

首先，正如我所说的，每个字符都有无限个可能的字形，所以不，一个字符并不“总是由一个单一的字形表示”。Unicode本身并不太关心字形，而且它在代码图表中定义的东西当然也不是字形。问题是他们都不是角色。那么它们是什么呢?

哪个是更大的实体，字素还是字符?文字中那些不是字母或标点符号的图形元素叫什么?一个很快出现在脑海中的术语是“字素”。这个词准确地让人联想到“文本中的图形单位”的概念。我提供了这个定义:字素是书面文本中最小的独立成分。

我们也可以反过来说，字素是由汉字组成的，但这样它们就被称为“汉字字素”，而由汉字字素组成的那些碎片就只能被称为“汉字”了。然而，这一切都是相反的。字素是不同的小碎片。角色更加成熟。“符号是可组合的”这个短语在Unicode上下文中应该更好地表述为“字符是可组合的”。

Unicode定义了字符，但它也定义了与其他字素或字符组成的字素。你创作的那些怪物就是一个很好的例子。如果它们流行起来，也许它们会在Unicode的后续版本中获得自己的代码点;)

这里有一个递归元素。在更高的层次上，字素变成了字符变成了字素，但它一直都是字素。

回复T S

第一章的标准声明:“Unicode字符编码处理字母字符，表意文字，相当于符号，这意味着它们可以被使用在任何混合物中，以同样的方式"根据这句话，我们应该是为标准中一些术语的合并做好准备。有时适当的只有在标准发展的过程中，回顾起来，术语才会变得清晰在一种语言的正式定义中，经常出现两个基本的问题事物是根据彼此来定义的。例如，在 XML一个元素被定义为开始标记可能后面跟着内容，后面跟着结束标记。内容定义在 Turn可以作为元素、字符数据或其他一些可能的东西。一个自引用定义的模式也隐含在Unicode中标准:< / p >

字素是一个码位或字符。

字符由一个或多个字母序列组成。

第一次面对这两个定义时，读者可能会反对第一个定义基于一个代码点是一个字符，但是这并不总是正确的。由两个编码点组成的序列有时编码A 下单码点归一化，和那个编码的码位表示字符，如图2.7。序列编码其他代码点的代码点。这有点棘手我们甚至还没有达到字符编码方案的层次如utf - 8所使用的

在某些情况下，例如一篇关于变音符号，和individual 一个字符的一部分可能会自己出现在文本中。在这种情况下，单个字符部分可以被认为是一个字符，所以这是有意义的统一码标准也保持灵活。< / p > 正如Mark Avery所指出的，一个角色可以被组合成一个更复杂的角色事情也就是说，如果需要，每个字符都可以作为一个字素。的所有组合的最终结果都是“用户认为是一个”的东西性格”。似乎也没有任何真正的阻力标准或在此讨论中，以观念的最高境界有之文本中的这些东西，用户认为是单独的字符。来为了避免这个词被重载，我们可以在任何情况下使用“grapheme”

.表示组成字符的部分有时候，Unicode标准的术语到处都是。为例如,第三章将UTF-8定义为“编码形式”，而术语表定义为“编码” 而UTF-8则是“字符编码方案”。另一个例如"Grapheme_Base"和"Grapheme_Extend"，是已确认为错误却一直存在，因为清除它们是一项艰巨的任务。有

关于增加combine GRAPHEME的建议 JOINER得到它 “字素是一个或多个编码的序列与用户认为的字符相对应的字符。”它应该而是读成:“一个或多个字母序列组成了用户就像一个角色。”那么它可以使用"字素序列"这个术语明显来自术语“字符序列”。这两个术语都很有用。 “字素序列”巧妙地暗示了一个汉字的形成过程小的碎片。“字符序列”指的是我们通常凭直觉感知到的东西意思是:“用户认为是字符的一系列事物。”< / p > 有时候程序员确实想在字素的层面上进行操作序列，所以检查和操作这些序列的机制应该是可用，但通常在处理文本时，对其进行操作就足够了 “字符序列”(用户认为的字符)，并让

.系统管理底层细节

在本文讨论到目前为止的所有情况下，使用“grapheme”更清晰。指不可分割的组成部分，“字符”指组成部分实体。这种用法也更好地反映了两者长期以来的含义术语。< / p >