在计算机内部是通过二进制编码的方式表示信息,故在存储信息之前需要先转换成计算机能够识别的编码。

一、西文字符的编码表示—ASCII码

  • ASCII码 (American Standard Code for Information Interchange):
    • 每个字符占 7位(比特/bit),可表示 27=1282^7 = 128 种字符(大小写字母、数字0~9、控制符、通用符号)。
    • 常见字符十进制值:
      • 字符 0 → 48
      • 字符 A → 65
      • 字符 a → 97
    • 基本ASCII码:占1字节,最高位为0,范围 0~127
    • 扩展ASCII码:占1字节,最高位为1,范围 128~255
  • 外码:人机交互的字形符号(如 A)。
  • 内码:计算机内部存储的数字代码(如 A 的内码是65)。

西文字符处理过程

二、中文字符的编码表示—GB码

  • GB码(国标码)
    • 汉字交换标准,用 2字节 编码(每字节取7位),可表示 214=163842^{14} = 16384 个字符。
    • GB2312-80 分级:
      • 一级汉字(按拼音排序)
      • 二级汉字(按部首排序)
    • 汉字排列在 94区×94位 的方阵中:
      • 区位码:十进制表示(区码+位码),如“国”字区位码为 2590(25区90位)。
      • 国标码:十六进制表示,换算公式:区位码 + 2020H(即区码/位码各加32)。
        • 例:“国”字国标码 = (25+32)10=5710 (25+32)_{10} = 57_{10} (90+32)10=12210 (90+32)_{10} = 122_{10} 397AH(十六进制)。
  • 汉字内码:区位码两个字节的最高位置 1(即 区位码 + 8080H)。
  • 存储占用
    • 英文字符:1字节
    • 中文字符:2字节

中文字符处理过程

拓展:全角与半角

  • 全角标点占 2字节,半角标点占 1字节
  • 汉字始终占 2字节(与全角/半角无关)。

三、中文字符的编码表示—字形码

  • 字形码(字模):用于汉字输出的二进制信息(如显示/打印)。
  • 点阵字模
    • 例:16×16点阵 的“次”字字模(每点用1位二进制表示):

    • 存储计算:16×16/8=3216×16 / 8 = 32 字节/汉字(笔画繁简均占用相同空间)。

    • 表示顺序:从左到右 → 从上到下(每行分左右8点)。


四、Unicode 码

  • Unicode(统一码)
    • 为所有语言字符设定统一且唯一的二进制编码,支持跨语言/跨平台文本处理。
    • 主流编码方式:UTF-8(互联网最广泛)、UTF-16