首页 理论教育 汉字的信息处理和汉字的应用

汉字的信息处理和汉字的应用

时间:2022-04-05 理论教育 版权反馈
【摘要】:第六节 汉字的信息处理和汉字的应用现代汉字的应用领域和应用方式较过去有了很大的变化。汉字应用于计算机就是指汉字的信息处理。汉字的信息处理主要包括以下内容。目前常见的汉字键盘输入有两种,一是汉字编码输入法,另一是汉语拼音输入法。目前,国内汉字信息处理系统字库存贮的数字化点阵规格有15×16、24×24、32×32等多种。(三)汉字编码汉字信息处理的关键技术是汉字编码。

第六节 汉字的信息处理和汉字的应用

现代汉字的应用领域和应用方式较过去有了很大的变化。汉字的传统应用领域是人与人之间的交往,而现代汉字的应用领域,不仅人与人之间的交际领域扩大了,如打字、传真等领域,而且还增加了人与计算机交际的新领域。

一、人际应用

现代汉字用于人与人之间的交际可简称为“人际应用”。人际应用主要包括如下几个方面。

(一)书写和阅读

汉字用于书写和阅读是汉字的基本的和传统的应用领域,汉字是记录汉语的书写符号系统,书写就是记录,记录的目的就是为了供人们阅读。汉字用于书写汉语有一定的优点,如汉字呈方块形,笔画集中,结构紧凑,所占的面积小,而每个字又多表示比较丰富的意义。汉字书写可横写,也可以直写(现代汉字绝大多数用于横写)。汉字还可以用于书法,成为艺术品。不过,从书写方面来看,汉字也有缺点,如笔画多,结构复杂,书写不简便,而且有一定量的形似字,往往容易写错。

汉字用于阅读有明显的优点,就是有扫读能力,一篇文章,扫一眼可以大致知道文章是讲什么的。这是因为汉字是平面型方块体文字,方块体省目力,平面型文字储存的信息量大,有利于阅读和扫读,俗话说“一目十行”,就是这个道理。另外,汉字笔画多,结构复杂,也使得每一个汉字都有一定的个性特点,形象鲜明,区别明显,因而分辨率高。但汉字也有缺点,一字一形,字数多,难认难记,也难写,尤其对初学者来说,学习汉字困难较大。

(二)书法和篆刻

汉字不仅是记录汉语的书写符号系统,而且由于汉字本身的结构特点,使汉字书写可能成为一种艺术,即书法艺术。书法家通过对汉字的笔画和字形结构、间架的巧妙搭配,通过笔势的多种变化,可以书写出风格各异的书法艺术作品。

篆刻是指镌刻印章,因为印章多为篆书字体,先篆(书写)后刻,后人就把镌刻印章叫“篆刻”。篆刻实际上也是书法艺术的一种。

(三)印刷、打字和传真等

汉字运用于印刷由来已久,现代汉字运用于印刷随着印刷技术和设备的发展,速度和质量大大提高了。打字技术的产生和飞速发展,也使得汉字印刷术和日常汉字书写形式发生变化,尤其进入计算机时代,汉字印刷、打字、书写都产生了质的变化。随着通讯技术的发展,汉字的复制、传输也进入现代化阶段,如可以通过复印机复制,可以通过传真机复制和传输,还可以通过网络传输。

二、人机应用和汉字信息处理

所谓人机应用就是利用电子计算机对汉字进行各种类型的信息处理,让计算机接受和理解汉字。汉字应用于计算机是汉字应用领域的扩大,也是汉字应用的一场革命。汉字应用于计算机就是指汉字的信息处理。

汉字信息处理经过语言文字学家和计算机科学家的长期努力,已经取得了许多成就。汉字的信息处理主要包括以下内容。

(一)汉字的计算机输入

汉字信息处理的第一步是要将汉字输入到计算机中去。目前汉字输入的方式主要有三种:汉字键盘输入、汉字字形识别输入、汉字语音识别输入。

1.汉字键盘输入

汉字键盘输入是由打字键盘实现符号代码的输入。这是目前计算机信息处理系统中最常用的输入方式。目前常见的汉字键盘输入有两种,一是汉字编码输入法,另一是汉语拼音输入法。

汉字编码输入法是把每个汉字编成一个计算机可识别的代码,然后运用国际通用的小键盘把代码输入计算机。像“五笔字型输入法”就是一种较为常用的汉字编码输入法。这种输入法需要经过专门的学习和一定时间的练习才能熟练,学习时间相对较长。优点是速度快,重码少,适合专业录入员使用。

汉语拼音输入法是以汉语拼音连续输入为手段,而由计算机自动转换为汉字的一种汉字输入法。只要掌握汉语拼音和普通话,无须太多的学习和练习就能操作。但缺点一是因为不计声调,因而同音字多,重码多,选字费时,也容易出错;二是普通话不太好的方言区人,或汉语拼音不熟悉的人,使用起来困难较多一些。这两个缺点都影响了汉语拼音输入法的速度和效率。

2.汉字字形识别输入

汉字键盘输入要靠人工点击键盘,速度不快,工作量也大。为此,科学家又研制出让计算机自动识别汉字的技术,即汉字字形识别输入法。这种输入法是通过图形扫描器(仪)对汉字文本进行扫描以使汉字输入计算机,实现扫描仪跟计算机的对接。目前汉字字形识别输入可以分为印刷体汉字自动识别和手写体汉字自动识别两种。印刷体汉字自动识别是国内汉字字形自动识别的主流,基本技术已经达到实用化阶段。不过这种输入,只能输入已经印刷好的成品,无法输入正在创作的作品。

手写体汉字识别又分为联机和脱机两种。联机手写体汉字识别,是由使用者在一块跟计算机连接的写字板上书写汉字,计算机同时接受笔的运行轨迹并进行识别输入。脱机手写体识别是识别预先手写在纸上的文字。手写体字形识别的效率不仅跟计算机识别技术本身有关,而且跟手写者的书写规范直接相关,规范清晰的字形总是更容易识别一些。

3.汉字语音识别输入

汉字语音识别是计算机对人说的汉语口语进行语音分析,从而实现汉字输入。语音识别使人的口语语音通过话筒跟计算机连接,这就实现了人机的直接对话,不仅输入方式简单,而且输入速度快;但目前的计算机语音识别的效率和正确率还需要进一步提高。

(二)汉字的计算机输出

汉字输入计算机以后,要先转换成由相应的计算机系统所确定的机内代码,然后还原成汉字,再进行输出。汉字的计算机输出一般有两种形式,一是屏幕显示输出,按一定方式输入汉字以后,一般来说,跟计算机相连的显示器屏幕就可以直接显示出所输入的汉字。另一种是打印输出,由跟计算机相连接的打印机把输入的汉字打印出来。汉字输出的效果跟汉字字形点阵数相关,点阵数越大,字形失真就越小,字形库的容量也就越大,输入的汉字效果就好。目前,国内汉字信息处理系统字库存贮的数字化点阵规格有15×16、24×24、32×32等多种。

(三)汉字编码

汉字信息处理的关键技术是汉字编码。汉字编码就是把汉字变成可以输入计算机的代码,即汉字输入码的设计和编制。经过计算机科学家和语言文字学家的艰苦努力,汉字编码的技术已经基本解决,并且汉字编码的方案先后提出了几百种之多。但这诸多方案中,编制成软件形式可以上机应用的只有几十种,而真正被用户采用的,技术性能较优秀的还不到10种。因而,目前汉字编码的基本问题是汉字编码的标准化,即优化问题。

汉字编码方案优选的基本要求是易学、易记、易用。具体说是:①基本符号少,较容易实现盲打;②规则简单易记,操作方便易学;③一字一码,重码尽可能的少;④输入处理效率高,设备经济实用。目前,应该由专门的或权威机构,对众多的设计方案进行优选,取众家之长,设计出最佳方案,并做好推广使用工作。

目前使用的汉字编码方案主要有形码、音码、形音结合码三种。

形码是利用汉字字形特征如笔画、部件、偏旁、部首等而编制成的代码。常见的形码有笔形编码,如李金铠的八笔编码;部件编码,如王永民的五笔字型编码;部首编码,如王安的三角编码。

音码是按汉字字音,利用汉语拼音方案给汉字编码。音码有两种具体的方案,即全拼式和双拼式。

形码和音码都各有优点和缺点,为克服它们各自的缺点,人们又研制出形音结合码,如支秉彝的“见字识码”方案。

(四)汉字信息处理和汉字研究

为提高汉字信息处理的效率和质量,必须加强汉字自身的研究。首先必须加强汉字规范化和标准化的研究。汉字的规范化程度直接影响到汉字信息处理的速度和效率,汉字信息处理中的输入、输出、频率统计、汉字识别、语音识别等等都跟汉字的规范化密切相关,如果字形不规范,就难以自动识别,字形不标准也难以输入或输出。

其次,要加强汉字属性研究,只有对汉字的读音、笔画数、部件数、部首、部首笔画数、部首以外的笔画数、部首序号、笔顺、笔顺序号、结构方式、异体字、繁体字、旧字形、字频、字序号等等属性的充分研究,为计算机提供尽可能多的关于汉字的各种信息,才能提高计算机进行汉字信息处理的效率,扩展计算机汉字信息处理的各项功能。

总之,当今社会正处在信息时代,汉字信息处理正是我国各类信息技术发展的基础,因而我们必须投入足够的人力和物力,进一步加强跟汉字信息处理研究有关的各项工作,以加速我国信息技术的发展。

思考题

1.在现代社会中,汉字的应用领域有了哪些变化?现代汉字还能否适应现代社会对书写符号的需求?

2.当前,汉字编码的方案有许多种,造成了人力、物力的大量浪费,你是如何看待这种现象的?你认为评价一种汉字编码方案优劣的标准是什么?

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈