haihongyuan.com
海量文库 文档专家
当前位置:首页 >> 数学 >>

汉字编码原理_图文

汉字编码原理_图文

第三章汉字编码原理

第三节 汉字编码原理

一、什么是汉字编码
? ? ? ? ? ? 汉字外码:汉字的字母数字代码 计算机人机界面:键盘 字母 数字 控制符号 功能键位

二、汉字编码的历史发展
? 广义的汉字编码是从汉字字书的编撰算起的。 因为字典的编撰,离不开字的排序和检索。 ? 字典是供人来 * 查阅,编码输入法是让机器到 字库中去查找。都是按照某种规则排列和检索 汉字*的。 ? 可以说,早期的汉字排字检字法就是汉字编码 的早期形式。比如, ? 笔画部首法、四角号码法、拼音查字法、笔形 查字法等。

最早的汉字代码
? 1880年清政府创办电报局,由丹麦人设计 的汉字电报码。它的方法是将电报用的汉字按 照笔画顺序由少到多排列成一个字表。 ? 使用的字数不到一万,就以字的顺序号作该字 的代码。第一个字的代码就是0001,第五 个字的代码就是0005,第385个字的代 码就是0385。 ? 电报码一直使用到今天,经过不断的修订完善 成为《标准电码本》。

? 十个数字如果转换为二进制表示,则只 需四位二进制单位。这样,用“嘀 —— 嗒” 两种状态就可以传输汉字了。 ? 电报码的特点是“字”-“码”一一对 应,没有重码。 ? 缺点是难以记忆,非经过专门训练无法 使用。

三、编码原理
? 1、确定编码对象 ? 汉字的总字数有6万多,现代汉语常用的也有 1万左右。《信息交换用汉字编码字符集基本 集》根据各种统计数据确定收入汉字6763 个。这些汉字就是一个编码对象的数量级。 ? “大字符集” 包括大陆、台湾、日本、韩国所 使用的全部汉字的集合。有20902字。 ? 数量不同,有关参数也不同。

2、确定码元类型和数量
? 码元是用来作为汉字代码的元素。例如, ? 电报码的码元就是0-9这十个阿拉伯数字。 ? 码元的种类和数量与编码容量、以及码长、重 码数等指标直接相关。 ? 比如电报码,采用十个数目字作码元,四位码 长的编码容量至多10000个汉字,从00 00到9999。超过1万字就是出现重码, 否则就必须增加码长。

? 一般的编码方案多采用26个英文字母 作码元, ? 也有的在这个基础上再增加10个数目 字,使码元数增加到36个的方案, ? 还有的把字母键盘区的其它功能键也利 用上的。 ? 这种需要增加码元数的方案多数是形码 方案。

3、确定编码规则
? 理想的规则是“字码意义对应” 、规则简单, 好学易记,没有复杂的条件限制或特例情况。 ? 实际上最难做到。 ? 比如按形排序,同笔画数的字很多,同笔画的 字当中,起笔相同的也不少,甚至笔顺相同的 也有。究竟谁先谁后,难以给出一个标准。 ? 按音排序也有个同音字的先后问题。同音、同 调、同笔画数的汉字再按什么条件排先后,都 是难题。 ? 人为地增加许多规定,势必增加用户的学习量。

4、编制码表
? 所谓码表就是“字”-“码”对照表。 ? 按照确定的编码规则将《基本集》中的 全部汉字逐个给出正确的代码,形成一 个字码对照表。

5、编制软件、上机实现
? 这部分是软件人员的工作。软件人员根 据编码规则和码表, ? 设计一个查字管理程序,经过调试,准 确无误,就可以投入使用。 ? 至此,一个汉字编码系统就完成了从设 计到实现的整个过程。

四、汉字编码的技术参数指标
? 汉字编码是一个理论与实践性都很强的 课题,而最重要的是它的实践性,也即 在实际应用中的效果。 ? 因为这是要解决汉字信息处理的第一个 “人机界面”,所以,几乎全部技术指 标都与“人”密切相关。

? 在“人服从机器”还是“机器服从人”这个问 题上,曾经有过一个认识过程。 ? 开始为了使机器能够处理汉字,主要是从机器 出发的,重点考虑机器的特点和条件,较少考 虑人的特点和需要。 ? 后来才将立脚点转移到“人”这方面来,将许 多困难都留给机器,使机器对人服务得友好、 周到,人的操作变得轻松、愉快。

什么是理想的编码
? 1、规则简单。 ? 一般具有中等文化水平的人不需要经 过专门培训就可以通过“自学”完全掌 握。 ? 如果能够利用人的常识和知识,如果这 种常识和知识中涉及或包括了关于汉字 的基本知识, ? 编码规则应当简化到不需要特殊的规则 的地步。

2、码元数量少
? 一般不超过36个,即26个字母外加 10个数字键。最好只使用26个字母 键。 ? 这样,对于人来说记忆量减少,对于机 器来说,在键盘管理方面较好处理。

3、码长短
? 每个汉字的代码不超过四码。如果采用 简码和不等长码处理的话, ? 平均码长应当在3码以下。

4、编码容量具有可扩展性
? 汉字信息处理除了《基本集》的676 3个汉字外,随着实际应用的发展,不 可避免地出现繁体汉字的问题以及大字 符集的问题。 ? 理想的汉字编码应当在不增加或少增加 规则的基础上,就能够使编码容量扩展 到繁体汉字或更大的范围。

5、采用词语编码
? 应具有足够的词汇编码容量。词语码最 长不超过4码。 ? 应该给用户提供足够的词库扩展空间和 扩展手段,使用户能够方便自如地根据 自己的需要增加用户词汇。

6、重码率低
? 一般用户可以实现“盲打”,即不用看 键盘(有一定的键盘基础的情况下)和 提示行就能够输入汉字。 ? 只有能实现盲打,才能提高输入速度。

7、服务功能
? 系统能提供方便周到的自学检索服务功 能。例如, ? 对规则的训练指导、查询疑难字,容错 处理、允许模糊输入等等。

8、具有广泛的适应性
? 适合不同年龄层次、不同地域、不同文 化背景的人学习使用, ? 同时,又能适应各种类型的输入,比如 ? “照打”、“想打”、“听打”、“盲 打”等。

第四节汉字编码类型

1、流水码
? 流水码的特点是: ? ①码元只有10个阿拉伯数字; ? ②一般多为等长四码,有效数字不足四 位的在前面加零补足四位; ? ③字、码一一对应,没有重码; ? ④字、码之间没有理据性,就是没经过 专门训练不能做到“见字识码”;

2、拼音码
? 是以汉字的读音属性为编码依据,采用 键盘上的拉丁字母做为码元的编码方法。 又分为 ? “全拼音码”、 ? “简化拼音码”、 ? “双拼音码”三种。 ? 一般不加声调。

全拼音码的特点
? ①码元为26个拉丁字母; ? ②与教学、社会应用的拼音规则完全一致,只 要会拼音的人就会编码,能够作到“见字识 码”; ? ③因为是“按音编码”,怎么读就怎么输入, 便于思路的连续性,适于“想打”即写作者边 想边打的方式; ? ④为不等长码,最长的如“装”“创”“双” 音节都是6码; ? ⑤重码较多,有的音节多达上百个重码,多次 翻页,很不方便;

㈡简化拼音码
? 主要为了解决码长过长的问题,减少击键次数, 提高输入速度,在拼写规则上加以简化处理, 将双字母声母“ZH”“CH”“SH”以及 许多两字母以上的复韵母都各用一个字母代替。 比较常用的如前面介绍的CC-DOS所配置 的拼音码。 ? 简化拼音码的特点,除了比全拼音码减少码长 外,其余与全拼音码都一样。但是,因为,增 加了字母替换规则,所以,就比全拼音码增加 了学习量。

㈢双拼音码
? 根据汉字传统的“反切”拼音的原理,采用一 声一韵的字母拼写形式,进一步将每字的码长 减少到两码。 ? 双拼音码的特点是: ? ①码元为26个拉丁字母; ? ②较复杂的声母、韵母替换规则,须经过一段 时间的学习才能掌握; ? ③重码仍然与普通音码一样多; ? ④由于码长短可以提高输入速度;

㈣标调拼音码
? 汉语是有声调的语言,汉语的声调是一 个重要的“音位”,具有重要的辨义功 能。有一种乐器叫做“雷琴”,可以只 用“音高”就能模拟汉语的句子。这个 例子足以说明汉语声调的重要性。

? 拼音码为了降低重码率,采用标调的办法,这 样的拼音码,我们称之为“标调拼音码”。 ? 汉语的音节是有数的:不加声调只有412个, 加声调则有1300个左右。 ? 汉字共有6万个。收在《基本集》中的有67 63个。 ? 不加声调平均每个音节约有15个重码,加上 重码分布的不平衡,个别的音节就有几十甚至 上百个; ? 如果加上声调,平均每个音节只有不到4个重 码了。

? 在汉语拼音方案中规定了“阴平、阳平、上声、 去声”四种声调的调号,调号的位置要标在一 个音节的主要元音的上面。比如, “āāǎàēéěèīíǐì” 等。虽然字库中做 好了带调号的主要元音的字模点阵,但是键盘 上却没有相应的键位,所以,采用通用键盘输 入汉字就无法输入调号,所以只好采用变通的 办法。 ? 汉语拼音历史上标调的方法有三种:符号标调 法、数字标调法和字母标调法。

符号标调法
? 1918年注音字母公布时采用小圆圈 标调,以一个拼音音节的四个角表示四 个不同的声调,叫做“四声点法”或叫 “点角法”。后来,改用现在的调号来 表示。

数字标调法
? 比如用1、2、3、4分别表示一声、二声、 三声、四声,将表示调号的数字放在一个音节 的末尾。 ? 在实际使用当中,又有一些变通的处理办法。 比如, ? 挑选出一个含字数最多的声调,作为“默认 值”,用“零位”表示,即用不加调号来表示 该调号。其余的分别加上数字调号,实际上等 于只增加了三个调号符号。 ? 这样作可以缩短码长,减少击键次数。采用这 种方法的编码方案如山东烟台唐懋宽的“声数 码”就是其中较有代表性的一个。

字母标调法
? 在具体做法上各有不同。这种方法在汉 语拼音方案的设计过程中就有人试验过, ? 其中比较有代表性的例子是“国语罗马 字拼音方案”等。

“国罗”的声调表示法
? 〖阴平〗(包括轻声)用基本形式; ? 〖阳平〗浊音半浊音声母(mnlr)用基本 形式; ? “i”、“u”作韵头时改为y、w,如: ? 黄hwang、元yuan、今jyn, ? 但是,单独作韵母时则用双字母表示,如: ? 皮pyi、湖hwu; ? 开口韵在元音后加“r”,如 ? 拔bra、达dra、啥shra;

〖上声〗
? 单元音连写,如闪shaan,版ba an、比bii; ? 复韵母“i”改“e”、“u”改 “o”,如检jean、广goang、 百bae、好hao; ? ei、ou、ie、uo四韵采用连写 法,如北beei、手shoou、姐 jiee、妥tuoo;

〖去声〗
? 韵尾改写:i改为y、u改为w、n改 为nn、ng改为nq、l改为ll或 h,如在tzay、占jann、胜s henq; ? 采用字母标调的汉字编码方案如山东青 岛丁天铎的“汉语辅助字编码方案”。

拼音编码的瓶颈
? 同音字繁多,影响输入 ? 《新华字典》中,读SHI音的字有72个, ? 《汉语词典》中,读YI音的字有164个。

? ? ? ? ? ? ? ?

同音词也影响编码输入 Shi-shi的词就有如下的24条: 失实、失时、诗史、失事、 失势、施事、实施、时时、 事事、时事、时势、时世、 时式、史诗、史实、试试、 誓师、事实、适时、事势、 逝世、世事、视事、实时

形码
? ① 字“形”具有“音”和“义”都无法 比拟的唯一性。 ? ② 字“形” 图形信息丰富,可供采用。 ? ③ 字“形”不受不同口音、不同国家的 影响。

? 形码主要根据汉字的字形特征信息进行 编码。 ? 汉字的形体分析有笔画、字根、结构方 式、部位特征等。 ? 从不同的角度选择特征信息、设计编码 规则,就形成了不同类型的编码方案。

㈠笔画笔形码
? 以汉字的基本笔画特征为取码依据,参 考笔顺、部位特征等信息的编码方案统 称为“笔画笔形码”。

? 这类编码方案的基本方法是, ? 首先确定汉字的基本笔画数,一般有 “五种”、“六种”或“八种”不等, ? 然后确定这些基本笔画的固定顺序,给 每种笔画一个顺序代号。 ? 按照写字时笔顺的先后就可以将一个汉 字转换成笔画代码的线性排列。

? 例如,假设确定的汉字基本笔画为“横、 竖、撇、捺、点、折”这样的六种,并 且代号依次为“1、2、3、4、5、 6”, ? 这时,任何一个汉字都可以转换成用这 六个数字组成的“数字串”来表示了。 如:“中”2612,“国”2611 2151等。

笔画笔形码的特点
? ①码元数少; ? ②规则极其简单,几乎没有记忆量; ? ③平均码长过长,因为汉字的平均笔画 约为11-12划,《基本集》中笔画 最多的“齄”有23划。所以,单纯用 笔画编码由于码长过长而降低了实用价 值。 ? ④由于有些字的笔顺缺乏统一和规范, 在具体编码时会出现二义性情况;

㈡字根码
? 汉字是可以分析的,从《说文解字》开 始,汉字就有两分法的传统,就有所谓 “独体”“合体”之说。至今仍沿用的 “部首查字法”实际上就是将汉字拆分 成有限数量的结构单位,依此作为汉字 检索的依据和途径。

字根码的特点
? ①克服表音码不知读音就不会编码的缺 点,同时也避免了汉语方言对拼音码的 干扰。即使不认识的汉字也能根据字根 给出正确的编码; ? ②重码率比音码大幅度降低; ? ③规则较复杂,包括拆字、取码、确定 字根代码等都有许多硬性规定的规则;

? ④学习量较大,尤其是字根与键位的对应关系 难学难记。通常要把一、二百个字根安排在2 -30个键位上不经过专门训练无法使用。一 般学习期要3周到一个月; ? ⑤因汉字的拆分没有统一的标准和规范,在字 根的数量、大小、拆分方法、名称等方面都没 有标准。各个编码方案的作者按照自己的认识 去做,这些做法又与传统的汉字教学有许多不 同,因此,给用户造成许多困惑。

字根码的瓶颈
? 部首只是汉字分析结果的一部分。 ? 传统的汉字分析结果有偏旁、部首、声符、形 符等名称。 ? 它们之间虽然有区别,但是尚缺乏统一的称呼。 比如说“偏旁”包括“部首”,但又有“左偏 右旁”之说; ? 又比如,上下结构的字,部首在上部,该怎么 称呼它的结构成分呢; ? 而且一个汉字去掉部首之后的部分,该叫什么 名称呢。

? 许多表形码的作者自发地使用“字元”、“字 素”、“构件”、“部件”、“构字成份”、 “笔画组合”、“字根”等名称。这些名称的 称谓对象并没有根本的区别。经研讨,大家基 本倾向于使用“字根”的名称。本书就用“字 根”一词作为笔画与汉字之间的成份的称呼。 所以,字根码就包括了所有进行汉字拆分的编 码方案。 ? 大小、标准都不同。比如“韶”字有分成 “ 音 ” “ 召 ” 二 根 的 , 也 有 分 成 “立”“日”“刀”“口”四根的。

㈢字形特征码
? 利用汉字的结构特征信息对汉字进行的编码叫 做“字形特征码”。如“四角号码”、“三角 号码”、“高低笔号编码”等。 ? 字形特征码的编码依据是汉字部位信息量分布 不平衡的特点。这使汉字作为图形符号,在识 别和使用中具有“模糊识别”的特点,就是说, 在一个字中总有些部位的笔画、结构成分所含 有的信息量大、成为重要的区别性特征;而有 些笔画和结构成分的信息量很少,区别性意义 不大,在识别过程中往往被忽略。在编码规则 上,就选取具有区别性特征的部位的信息进行 编码。

字形特征码的特点
? ①除了具有形码的不受字音影响的特点 外,也克服了笔画笔形码受笔顺的限制、 字根码拆分标准不统一等二义性的干扰; ? ②规则相对简单; ? ③码元少,码长不长,所以重码较多, 为了区别重码,只好增加规则或增加码 长;

4、音形结合码
? 汉字是一个形、音、义的统一体。汉字的信息 特征分布在字形、字音、字义方面。在编码实 践中,人们逐渐认识到,单纯的按“音”或按 “形”编码都不很理想,都不符合“近字性” 原则。从汉字本身分析,同音字的原因主要在 于汉字形旁的辨义功能;而具有相同的部首的 一批汉字的区别性特征在于读音的不同。显然, 字音和字形都是汉字的重要区别性特征,二者 都不可缺少。

? 字音属性主要有声、韵、调,字形属性 有笔画、字根、部位、结构特征等。而 笔画、字根也可以有“形”、有“音”、 有“名称”。因此,究竟利用哪些特征 信息来编码,实在大有资源潜力。这也 是造成汉字编码多样化的一个重要原因。

㈠声形码
? 以汉字的语音特征为主、以字形信息为辅的编 码叫做“声形码”。比如,一组同音字中再用 该字的偏旁读音的声母作为区别码。这种重码 字的区别码是有理据的,可以不必特别记忆。 此外也可以用字形的结构特征或某一个部位的 特征等作为区别码,都属于声形码。因为是兼 顾了字音与字形两种信息,所以,每种信息都 取其中的一部分而不是全部。比如,也可以先 取整个字的声母,再将该字一分为二,分别取 各部分的读音的声母,组成这个字的编码。

声形码的特点
? ①因为不是字音的全部信息,所以容许使用者 发音不准,比如只取声母,发不准韵母的用户 也照样能用; ? ②基本符合汉字使用习惯,如平时所说的“人 言为信”、“弓长张”、“立早章”则“信” 的编码就是“XRY”、“张”的编码是“Z GC”、“章”的编码是“ZLZ”。 ? ③因为使用了字形信息,所以,在编码的同时, 破坏了语言思维的连续性,不便于“想打”, 而且难以提高速度; ? ④字形属性信息仍然由于缺乏统一标准而干扰 取码。

㈡形声码
? 以形为主以音为辅的编码叫做“形声 码”。字形属性一般多分析出字根,再 根据字根的读音特征,按音编码。例如, 组成“韶”字的几个字根的读音分别是 “li、ri、dao、kou”若取 这些字根的读音的首字母可以组成“l rdk”四个字母代码。这就是“韶” 字的形声码。当然,形声码的取码规则 各有不同的特点,形成各类大同小异的 形声码。

形声码的特点
? ①避免了记忆复杂的字根-键位分布对 应关系,按读音确定字根代码,比形码 大大地减少了学习记忆量; ? ②以字形信息为主,利用的信息量大, 重码率相对少; ? ③基本保留了形码不受方音干扰的优点, 对于不认识的汉字,拆成字根后就都能 认识了;

㈢声形义结合码
? 除了字形和读音信息之外,还有的方案 作者利用汉字的意义信息来编码,目的 是进一步区别重码,作到“全息编码”。 所谓“意义”信息其实只是“义类”信 息,即汉字所表示的意义的大类。这种 对汉字“义类”的认识来源于《说文解 字》。

? 许慎在《说文解字》中分析出的540个部首 都具有表“义类”的功能。540个部首的排 列依据也不是象今天似的按笔画多少,而是按 “意义”。 ? 关于部首表义的研究一直没有间断,在清代达 到了一个高峰。所以,汉字的意义属性的确属 于汉字属性的一部分。 ? 现代汉字已经不断地“符号化”了,究竟具有 多少表义性,大可疑问。因此,利用意义属性 给汉字编码,就应当考虑意义信息的比重、客 观理据性和可接受性。

? 声形义结合码的例子如郭秀珍的“声韵 部形码”,在意义类型上,将部首分成 “自然”“生物”“生理”“生 活”“余类”五大类。台湾的“仓颉输 入法”将“仓颉字母”分成“哲理 类”“笔画类”“人身类”“字形类” 四大类。

声形义结合码的特点
? ①综合利用汉字的形、声、义的信息进行编码, 是一种全息码; ? ②重码相对较少; ? ③规则多,记忆量大,有一定的学习难度; ? ④因形、声、义属于三个不同的范畴,混合使 用进行编码,思维方式不同,影响思维的连续 性,不利于想打; ? ⑤汉字的使用频度不同,每个汉字的信息量也 不同,并不是每个汉字都需要所谓的“全息” 编码。“全息”的结果对一些字来说,只是徒 然增加码长,并不能提高编码效应。

1.整字输入法
? 这类输入法将汉字视为一个个整体,人 工地或自动地将汉字赋予号码。 ? ① 最早为汉字编制代码的,应首推1880 年(清光绪六年)由丹麦人为清廷创办 中文电报时所编制的“四码”。这种沿 用至今的“电报四码”,是将10000个汉 字人为地编制流水号,每4位数字代表一 个汉字,可谓整字输入法之鼻祖。

? ----② 1926年日本人发明了“万能式中文 打字键盘”,一字一键,在70×35的字 盘上共收入2000多个汉字和符号。1971 年日本人森健一等又将这一大字盘按键 输入,改为查表的“笔触式”输入,从 而使输入设备体积减小,效率提高。

? ----③ 主键——辅键方式 ? ----作为对大键盘的改进,日本的富士通,美国 的PHOTON726照排机,以及美籍华人叶晨辉 等,于70年代初先后推出了“主键—辅键键 盘”。这种键盘共有21×8=168个主键,每个 主键上有5×6=30个汉字。左手控制一个有 5×6=30个键的小键盘,右手控制主键,先按 主键,再按辅键,即可选中并输入主键上与辅 键对应的那个汉字。

3、字根码
? 这种键盘,由于设备小、效率有所提高,一度 成为70年代后期和80年代初期在各种汉字照相 排版系统中广为使用的输入设备。 ? 所谓“整字输入法”的特点,是对汉字本身不 做任何“加工”而直接编制代码或直接见字按 键。 ? 优点:唯一性强, ? 缺点:难记(电报码)、 ? 设备庞大(大键盘)、效率低。 ? 使用大键盘可以达到的输入速度只及西文的十 分之一到五分之一。


网站首页 | 网站地图
All rights reserved Powered by 海文库 haihongyuan.com
文档资料库内容来自网络,如有侵犯请联系客服。3088529994@qq.com