Edit: UTF-8 编码的工作原理很巧妙，它用变长字节（1到4个字节）来表示 Unico

编辑文章

标题 *

URL 别名 *

内容 * (支持 Markdown 格式)

UTF-8 编码的工作原理很巧妙，它用变长字节（1到4个字节）来表示 Unicode 字符集中的所有字符，并且完美兼容 ASCII。下面我们通过一个表格和简要说明来了解其具体规则。

📊 UTF-8 编码规则一览

|Unicode 码点范围 (十六进制)|Unicode 码点范围 (十进制)|UTF-8 编码方式（二进制）|所需字节数|备注|
| :-- | :-- | :-- | :-- | :-- |
|U+0000 - U+007F|0 - 127|0xxxxxxx|1字节|与ASCII完全兼容|
|U+0080 - U+07FF|128 - 2047|110xxxxx 10xxxxxx|2字节|适用于拉丁字母补充、希腊字母等|
|U+0800 - U+FFFF|2048 - 65535|1110xxxx 10xxxxxx 10xxxxxx|3字节|适用于绝大部分常用汉字、韩文等|
|U+10000 - U+10FFFF|65536 - 1114111|11110xxx 10xxxxxx 10xxxxxx 10xxxxxx|4字节|适用于辅助平面字符（如一些罕见汉字、emoji等）|

🔍 编码过程：Unicode 码点如何转为 UTF-8 字节

UTF-8 的编码过程可以概括为以下几步：

1.  确定字节数：根据 Unicode 字符的码点值落在上表中的哪个范围，确定需要几个字节进行编码。
2.  填充模板：选择对应字节数的二进制模板。
3.  填入有效位：将 Unicode 码点的二进制值的各个位，从低位到高位依次填入模板中的 x 位置。如果码点值的二进制位数不足以填满所有 x，则在前面用 0 补足。

例如，以汉字 “世” 为例，它的 Unicode 码点是 U+4E16：

1.  U+4E16 落在 U+0800 - U+FFFF 的范围内，因此需要 3 个字节进行编码，对应的二进制模板是 1110xxxx 10xxxxxx 10xxxxxx。
2.  将 U+4E16 转换为二进制（去除前面的0）：100111000010110。这个二进制有15位，而3字节UTF-编码中 x 位总共有16位（4+6+6），因此需要在最前面补一个0，变成 0100111000010110。
3.  将这16位二进制 0100 111000 010110（按4-6-6分组）依次填入模板中的 x 位置：
      - 第一个字节：11100100 → 11100100 (十六进制 0xE4)
      - 第二个字节：10111000 → 10111000 (十六进制 0xB8)
      - 第三个字节：10010110 → 10010110 (十六进制 0x96)
4.  因此，“世”字的 UTF-8 编码就是三字节序列 0xE4 0xB8 0x96。

🔄 解码过程：如何识别 UTF-8 字节序列

UTF-8 的解码过程是编码的逆过程，其巧妙的设计使得解码非常高效和可靠：

1.  查看首字节：根据第一个字节的前缀（开头的几个比特）即可判断当前字符编码的总字节数：
      - 如果以 0 开头，说明是单字节 ASCII 字符。
      - 如果以 110 开头，说明是双字节字符。
      - 如果以 1110 开头，说明是三字节字符。
      - 如果以 11110 开头，说明是四字节字符。
2.  读取后续字节：根据首字节指示的字节数，读取相应数量的后续字节。这些后续字节的前缀必须是 10，否则就是无效的 UTF-8 序列。
3.  提取有效位：从首字节和后续字节中提取出所有的 x 位（即去掉 110, 10 等前缀标志位），将它们拼接起来，就得到了原始的 Unicode 码点值。

这种设计使得 UTF-8 编码具有自同步能力。这意味着即使字节流中间出现错误或从任意位置开始读取，解码器也能很快地通过识别 0 或 10 这样的前缀来找到下一个正确字符的起始位置。

💡 UTF-8 的主要特性

- 兼容 ASCII：任何有效的 ASCII 文本自然也是有效的 UTF-8 文本，这让处理传统英文文本的系统可以平滑过渡。
  - 空间高效：对于英文或混合文本，UTF-8 比固定长度的 Unicode 编码（如 UTF-16、UTF-32）更节省存储空间和网络带宽。
  - 无字节序问题：UTF-8 的编码单元是字节，不像 UTF-16 或 UTF-32 那样需要关心大端序（Big-endian）或小端序（Little-endian）的问题，简化了数据处理和交换。
  - 强大的通用性：能够表示 Unicode 标准中的所有字符，涵盖了全球绝大多数语言的文字和符号。

⚠️ 注意：UTF-8 与 UTF-8MB4

在一些数据库系统（如 MySQL）中，你可能会遇到 utf8 和 utf8mb4 两种编码：

- utf8：在 MySQL 中，它通常指仅支持最多3个字节的 UTF-8 编码，因此无法存储辅助平面（如 U+10000 及以上）的字符（例如一些 Emoji 表情符号）。
  - utf8mb4：是真正的4字节 UTF-8 编码支持，可以存储所有 Unicode 字符。

因此，在现代应用中，为了全面支持所有字符（尤其是 Emoji），推荐使用 utf8mb4。

💎 总结

UTF-8 编码通过其可变长度设计和巧妙的前缀码规则，优雅地实现了对全球所有字符的统一表示，并且在兼容性、空间效率、可靠性和通用性之间取得了出色的平衡。这使它成为了互联网和计算机领域字符编码的绝对主流标准。

希望以上解释能帮助你理解 UTF-8 的工作原理。如果你对某个具体字符的编码过程感兴趣，或者有其他相关问题，我很乐意继续探讨。

配图 (可多选)

选择新图片文件或拖拽到此处

标签