首页 理论教育 汉字信息的输入

汉字信息的输入

时间:2022-03-05 理论教育 版权反馈
【摘要】:(一)汉字的键盘输入汉字的键盘输入是目前应用最广泛的输入方式,相应的软件处理技术也最为成熟。汉字编码方案的优劣成为影响汉字编码输入方式最重要的因素。根据抽取汉字信息特征的不同,汉字编码方案可分为音码、形码、音形结合码三类。形码着眼于汉字形体,有效地避免了同音字的问题,因此输入速度大大提高。根据上述要求优选制订出最佳方案推广试用,在试用中进一步完善,从而形成汉字输入编码方案的国家标准。
汉字信息的输入_现代汉语通论 第三版 上册

(一)汉字的键盘输入

汉字的键盘输入是目前应用最广泛的输入方式,相应的软件处理技术也最为成熟。

汉字键盘输入方式大体上经历了三个发展阶段:整字输入法、汉字编码输入法、汉语拼音输入法。

1.整字输入法是把整个汉字作为输入符号。一般是把几千个汉字按照一定的顺序排列在一个大键盘上,使用者用键盘击打或电笔点触输入。这种大键盘输入方式的优点是一字一键,无重码,直观性好,操作简单;缺点是需要特制键盘,速度较慢,设备笨重,成本昂贵,难以普及。

2.汉字编码输入法是把每个汉字编成一个代码,然后利用国际通用小键盘把代码输入计算机。这种输入法需要进行专门的学习和训练,优点是速度快、重码少,但是对于用计算机进行写作的人来说,由于加上了思考编码的负担,写作过程不断受到干扰,使用起来十分不便。

汉字编码方案的优劣成为影响汉字编码输入方式最重要的因素。根据抽取汉字信息特征的不同,汉字编码方案可分为音码、形码、音形结合码三类。

(1)音码

音码是按照汉字字音编码输入的设计。音码输入实际上是一种拼音转换法,即利用现行的汉语拼音方案输入拼音,把汉字转换成国际通用的拼音编码输入计算机,再由计算机自动转换为汉字。拼音编码输入法在具体实施中有两种不同的方案:一种是全拼式,一种是双拼式。全拼式依汉语拼音字母的顺序编排,以字母为单位逐个输入。这种方案的击键次数较多,包括辅助标识符在内,最多时一个汉字要击键7—8次,平均约4—5次。双拼式依声母、韵母的顺序编排,以声母和韵母为单位逐个输入。为此键盘上的键位必须按声母、韵母重新设计。这种方案的击键次数较少,包括辅助标识在内,最多一个汉字击键3—4次,平均不超过3次。全拼式符合规范的汉语拼音书写方法,双拼式则根据编码设计者的设计确定。

音码的优点在于它可以使用计算机上的通用键盘,并且只要使用者基本掌握汉语拼音方案和普通话语音即可进行操作,不需要专门培训。缺点在于同音字需要二次选择,影响输入速度。目前已有多种音码实现“字为基础,词为主导”,以词定字,在一个有限的范围内解决了同音字的问题。

(2)形码

形码是按照汉字字形编码输入的设计。它将汉字的形体分解为若干字元(例如笔画、部件、偏旁、部首),再利用字元代码表和字元排列顺序规则得到汉字编码,然后在键盘上输入。影响较大的有五笔字型输入法、笔形编码法等。形码着眼于汉字形体,有效地避免了同音字的问题,因此输入速度大大提高。其缺点在于掌握字形编码方案需要专门训练;并且大部分形码输入设计对汉字字形的拆分规则和编码规则与人们对汉字原有的认知结构不相吻合,即牺牲了输入设计的“易学性”。常见的字形编码方案有笔形编码、部件编码、部首编码和四角编码等四种。

1)笔形编码以李金铠的八笔编码为代表,采用汉字的基本笔画作为输入单位,即把笔形分成若干种,并分别给以确定的代码。问题是遇到笔画多的字,码字较长,相应的击键次数就多,不太实用。

2)部件编码以王永民的五笔字型码为代表,即把每个汉字分解成部件序列,再把这些部件转换成对应的数字或拉丁字母,得出代码序列。优点是码元少,重码率低,熟练后输入速度快;缺点是记忆负担重,部件切分不合常用规范,词库比较小。

3)部首编码以王安三角编码为代表,优点是规则较简单,重码较少,但基本字元代码数较多,不便记忆。此外还有台湾的天龙仓颉编码方案,该方案规则较复杂,使用不太方便,输入速度较慢,而且重码也较多。

4)四角编码就是直接用王云五的四角号码作为汉字编码,优点是码长较短,但数码不易一次认准,重码也较多,必须附加一定标识符来区分重码字。

(3)音形结合码

为了克服形码和音码各自的缺点,形音结合的输入法应运而生。这类编码方案又可分为两种:一种是以字形为主字音为辅的形音码,一种是以字音为主字形为辅的音形码。形音码与纯形码的不同在于还要利用某些字音信息,即在形码上附加音码。其中最有代表性的是支秉彝的“见字识码”方案。形码大都采用部件、偏旁、部首的信息,也有采用起笔、末笔信息或语义类别信息的。在实际操作过程中,音形信息的转换往往影响使用者思想的连贯性。

上述各种编码方案,各具优点,也各有不足。形码的优点是按形取码,不涉及字音,因此不认识的字也同样可以编码输入,输入速度较快;但汉字形体结构复杂,分解标准不一,主观随意性太强,因而不少方案规则较多,难于掌握。音码的优点是简单易学,可以盲打,缺点是不认识的字输入较困难,同音字较难处理。从目前的应用情况看,会说普通话、懂汉语拼音的人爱用音码,操方言者多根据自己的兴趣爱好选用某种形码。

(4)汉字编码方案的标准化

汉字编码方案的标准化,即一般所说的选优工作。目前国内各计算机使用部门采用的输入编码方案各不相同。内地多用GB码,台湾多用BIG码,香港、澳门情况不一,各种码都在使用。关于选优的评定标准主要有四条:1)基本符号少,能实现盲打;2)规则简单易记,操作方便易学;3)一字一码,没有重码;4)输入和处理效率高,设备经济实用。根据上述要求优选制订出最佳方案推广试用,在试用中进一步完善,从而形成汉字输入编码方案的国家标准。

3.汉语拼音输入法的优越性。汉语拼音输入是以汉语拼音连续输入为手段,而由计算机自动转换为汉字的一种计算机汉字处理技术。

(1)不需要编码规则。汉语拼音输入法是一种无编码方案,使用者无须记忆编码规则,只要掌握汉语拼音和普通话,就能应用自如。

(2)体现语言中以词为单位的特点。它的词库里贮存大量现代汉语的词汇,词汇之间可以自动切换,这样就在很大程度上弥补了同音字多的不足。

(3)输入与思维同步进行。汉语拼音输入法要求人们向计算机输入规范的汉语拼音,实质上是要求人们在键盘上使用汉语拼音来书写普通话,把写作者的思想直接表达出来。这一点对使用电脑写作的人来说,具有特别意义。

(4)有利于学习普通话和汉语拼音。应用汉语拼音输入法一般不需要经过特别培训,相反地还可以进一步帮助人们学好普通话和汉语拼音。

(5)有利于国际的信息交流。汉语拼音已经成为国际标准,因此,外国人同样可以使用汉语拼音输入法来操作计算机,在信息网络上获取他们所需要的汉语汉字信息。任何汉字字形编码都无法取代汉语拼音这一重要作用。

汉语拼音输入法符合我国国策,是发展方向,但在实际应用中还存在一些问题,需要逐步解决,使之日趋完善。其中减少同音选择是完善汉语拼音输入法的关键。实践经验告诉我们,“以词定字”“高频先见”和“用过提前”是根据汉语内在规律总结出来的减少同音选择的好方法。

(二)汉字的字形识别输入

采用键盘输入方式,要靠操作人员击键输入,速度较慢,工作量也大。如果能让计算机自动识别汉字,将会极大地提高整个计算机系统的效率。

汉字的字形识别输入就是通过特定的文图扫描装置,对印刷在纸上或写在纸上(或其他材料上)的汉字字符进行分类判别。它用光学字符识别器“扫描仪”抽取汉字字形特征,将纸面上的汉字信息转换成离散的电信号,然后再送入计算机识别,形成汉字内部码。汉字识别在学科上属于模式识别和人工智能范畴,在应用上属于汉字信息处理系统的一种高速输入方式。

目前比较成熟的识别方法有图形匹配法和结构分析法两种。图形匹配法就是将输入的待识别的汉字图形跟存储在计算机内的标准汉字图形直接进行配比,求出它们的相似度。跟待识别字相似度最大的标准汉字就是机器寻求的答案。结构分析法首先要通过对汉字图形结构的分析提取汉字的特征量,然后根据待识别字的特征量跟存储在机器内的标准汉字的相应特征量之间的距离来判定汉字字种的归属。

汉字字形识别可以分为印刷体汉字自动识别和手写体汉字自动识别两类。印刷体汉字自动识别是国内汉字识别研究的主流,手写体汉字识别又可分为联机和脱机两种。

(三)汉字的语音识别输入

汉字的语音识别输入就是通过与计算机连接的传声装置,利用语音分析技术,抽取语音特征参数,由计算机进行辨识并形成汉字内部码。语音识别的原理是把语音先根据语法规则切词,根据语音规则切音段,再根据语境、语用和语义规则辨别词句。语音识别在学科上属于模式识别和人工智能范畴,在应用上属于汉字信息处理系统的一种人机交互自动输入方式。

根据输入者的身份,语音识别可以分为特定人的语音识别和非特定人的语音识别两类。根据输入者的发音方式,语音识别又可分为孤立词语音识别和连续语音识别两类。

汉字语音识别输入,不需要事先进行复杂的专门训练,不需要记忆大量的编码规则,也不需要进行键指法练习,只要会说普通话或不太标准的普通话,就可以输入汉字,使汉字输入工作能以普及化的方式进行。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈