字符
1、字符分类
西文字符与中文字符
2、编码
用一定位数的二进制数来表示十进制数码、字母、符号等信息称为编码
(1)西文字符编码
ASCII 码(美国信息交换标准交换代码)
有两个版本:7位码和8位码。
国际通用是7位 ASCII 码,即用7位二进制数表示一个字符的编码。
大家考虑一下,可以表示多少个编码值呢?
要记住的几个字符的编码值:
a 字符编码为1100001,对应十进制为97,则 b 的编码值为98。
A 字符编码为1000001,对应十进制为65,则 B 的编码值为66。
0数字字符编码为0110000,对应十进制为48,则1的编码值为49。
注意:计算机内部用一个字节存放一个7位 ASCII 码,最高位置0。
(2)Unicode 编码
最初由 APPLE 公司发起制定的通用多文字集,后被 Unicode 协会开发为表示几乎世界上所有书写语言的字符编码标准。
有多种代表形式:
UTF-8
UTF-16
UTF-32
(3)中文字符
1980年 我国颁布了国家汉字编码标准
GB 2312-80 全称是《信息交换用汉字编码字符集》简称国标码把常用6763个汉字分成两级,一级汉字3755个,二级汉字3008个。
用两个字节表示一个汉字,每个字节只有7位,与 ASCII 码相似。
国标码:由4位16进制数组成
区位码:将 GB 2312-80的全部字符集组成一个94×94的方阵,每一行称为一个“区”,编号为0l~94;每一列称为一个“位”,编号为0l~94,这样得到 GB 2312-80的区位图,用区位图的位置来表示的汉字编码,称为区位码。
由4位10进制数组成,前两位为区号,后两位为位号。
两者之间的关系:
国标码=区位码(转换为16进制)+2020 H。
GBK 编码—扩充汉字编码共收录21003个汉字,也包含 BIG5(港奥台)编码中的所有汉字。
(4)汉字的处理过程
汉字输入→国标码→机内码→地址码→字形码→汉字输出
输入码:利用计算机标准键盘上按键不同排列组合来对汉字的输入进行编码。(也叫外码)
机内码:在计算机内部对汉字进行存储、处理的汉字编码。一个汉字内码用2个字节存储。
机内码=国标码+8080 H
地址码:指汉字库中存储汉字字形信息的逻辑地址码
字形码:用于在显示屏或打印机输出。也叫汉字字模。
汉字字形码有两种表示方式:点阵和矢量
用点阵表示字形时:汉字字形码就是把汉字按图形符号设计成点阵图
简易型汉字为16*16点阵
普通型汉字为24*24点阵
提高型汉字为32*32,48*48点阵
用点阵表示字形时:可计算出存储一个汉字站用字节空间
例:用16×16点阵表示一个汉字,就是将每个汉字用16行,每行16个点表示,一个点需要1位二进制代码,16个点需用16位二进制代码(即2个字节),共16行,所以需要16行×2字节/行=32字节,即16×16点阵表示一个汉字,字形码需用32字节。
即:字节数=点阵行数×(点阵列数/8)