一下关于汉字编码的最底层逻辑,你知道几个?(组图)

我总觉得不是中国人发明的电脑可以用汉字进行界面交互。这是非常神奇的。今天给大家讲讲汉字编码的底层逻辑。

(1)汉字信息交换码(国标码)

汉字交换码是指具有汉字处理功能的不同计算机系统在交换汉字信息时所采用的编码标准。

国标GB2312-80为中华人民共和国国标信息交换提出了汉字编码,简称国标代码。国家标准代码有时也称为区号。

GB2312-80标准包括6763个汉字,按用途分为3755个一级汉字和3008个二级汉字。

一级汉字按拼音排序,二级汉字按部首排序。此外,该标准还包括标点符号、几个西方字母、图形和数字等682个符号。

区号的区号和位码为十进制01~94,国标码为十六进制21H~7EH(数字后加H表示为十六进制数)。

区号与国标码的转换关系为:区号和位码分别加十进制数32。例如,表中“国家”一词为25行90列,其区位代码为2590,国标代码为397AH。

汉字编码过程概述

(2)汉字输入码(外码)

输入码,又称外码,是一组用于将汉字输入计算机的键盘符号。

常用的输入码和拼音码、五笔字码、自然码、形码、认知码、区位码和电报码等。好的码应该有简单的编码规则、易学易记、易操作、易操作使用。具有码率低、输入速度快的优势,大家可以根据自己的需要进行选择。

(3)汉字机器码

汉字机内码,简称“内码”。指由0和1符号组成的代码,用于汉字在计算机内部的存储、处理和传输。输入码接收后,无论使用何种键盘输入法,均由中文操作系统的“输入码转换模块”转换为内码。

内码是汉字最基本的编码中文编码方式有哪些,内码是唯一的。不管是什么汉字系统和汉字输入法,输入的中文外码都必须先转换成机器内部的内码才能存储和处理。.

字体位图

(4)汉字字体代码

字体码为汉字的输出码,输出汉字时采用图形方式。不管汉字有多少笔画,每个汉字都可以写在同样大小的方格上。

汉字字体代码通常有两种表示:点阵和矢量(轮廓)表示。汉字字体通常分为普通字体和精密字体。

用点阵表示字体时,汉字字库代码是指汉字字库点阵的代码。根据输出汉字的不同要求,点阵的个数也不同。简单汉字为16*16点,改进汉字为24*24点、32*32点、48*48点等。点阵尺寸越大,字体越清晰美观,存储空间也越大。注:字体代码占用的字节数=点阵行数*点阵数/8。

矢量表示存储描述汉字的轮廓特征。当要输出汉字时,通过计算机的计算,根据汉字的描述中文编码方式有哪些,生成所需大小和形状的汉字点阵。

矢量化字体描述与最终文本显示的大小和分辨率无关,因此可以产生高质量的汉字输出。Windows 中使用的 TrueType 技术是汉字的矢量表示。

(5)中文地址码

汉字地址码是指在汉字库中存储汉字字体信息的逻辑地址码。

(6)各种汉字编码的关系

汉字的输入、处理和输出的过程,实际上就是汉字各种编码之间的转换过程,或者说是汉字编码在系统相关部件之间流动的过程。

汉字输入码到内码的转换是通过输入字典实现的。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论