UTF-8“可变宽度编码”是如何工作的？

小开

最佳答案

每个字节以几个位开始，这些位告诉您它是一个单字节代码点、一个多字节代码点还是一个多字节代码点的延续。像这样:

0xxx xxxx    A single-byte US-ASCII code (from the first 127 characters)

每个多字节代码点都以一些比特开始，这些比特本质上表示“嘿，你还需要读取下一个字节(或两个，或三个)来找出我是什么。”他们是:

110x xxxx    One more byte follows
1110 xxxx    Two more bytes follow
1111 0xxx    Three more bytes follow

Finally, the bytes that follow those start codes all look like this:

10xx xxxx    A continuation of one of the multi-byte characters

由于您可以从前几位判断正在查看的字节类型，因此即使某个地方出现了错误，您也不会丢失整个序列。

小开

UTF-8是另一种存储系统您的 Unicode 代码点字符串, 记忆中那些神奇的 U + 数字使用8位字节。在 UTF-8中，每个来自0-127的代码点存储在单字节。只有代码点128和事实上，以上的储存方式是使用2,3, 最多6字节。

小开

一种 ISO 10646 的转换格式 RFC3629-UTF-8是这里的最终权威，并有所有的解释。

简而言之，UTF-8编码的1到4字节序列中每个字节中的几个位表示一个字符，用来表示它是否是一个尾随字节、一个前导字节，如果是，则表示后面有多少字节。剩下的部分包含有效载荷。