首页 理论教育 计算机文本技术的发展和超文本技术

计算机文本技术的发展和超文本技术

时间:2022-10-13 理论教育 版权反馈
【摘要】:它们就是所有计算机进行信息处理的基础。汉字国标码是用2个字节表示的双7位编码,其内码实质上就是用扩展ASCII码字符集中的2个ASCII码。输入码在计算机中必须转换成机内码,才能进行存储和处理。GBK标准简介GBK是新的汉字编码标准,全称《汉字内码扩展规范》,英文名称Chinese Internal Code Specification,中国信息技术标准化技术委员会1995年12月

图3.3 文献的结构

3.1.2 符号、文字、声音、图像、动画的特点比较

作为多媒体的信息载体,文字、符号、声音和图像在传递信息上有着许多截然不同的特点。

(1)符号

符号最不直观,或最“抽象”,你可用一个极怪异的符号代表一种只有你自己才知道的含义。但符号一般最简单,占用机器的内存少,因其不易被理解而人机界面较差。

(2)文字

文字则以其“永久”构成人类文明的历史。其表达信息的能力可以“明察秋毫”到无与伦比的程度。知识和思想全靠文字得以积累和升华,以至于它们可以洞察未来,揭示从感知上得不到的东西。文字远比符号直观并且表达丰富,又比同属于视觉信息的图像简洁和确定,而且比起与它密不可分的一体化的语音来说,文字传递信息的速度快得多,因为文字毕竟是视觉符号。这些特点使文字永远成为使用得最多的信息介质,成为计算机信息处理的“主力”。其他的媒体可以从多方面补充它、完善它,但不要希望会完全代替它。

(3)声音

声音表达信息的细节最为丰富,使用面最广。例如,同样一句话在不同的时间或地点、用不同的语气或声调,其含义都可能有所不同。声音大致分为语音和音乐两大类,与音乐不同,语音所传递的信息更明晰(distinct)、确定得多。它还具有其他任何媒体不具有的最便于“携带”和“成本”最低的优点。

(4)图形和图像

图形化的“语言”给人们带来丰富多彩的感受。图形或图像传递的信息更直观、更快、细节也特别丰富(这一点同声音)。但由此也带来信息的确定性差的问题,如你从任何一个图形上可以“一下子”看到很多东西,但它究竟代表哪一种确切的含义,你多半不能立即回答,如果没有对应的文字说明的话。

(5)动画

在Flash动画出现之前,网页动画基本上以GIF动画为主。Flash采用了矢量动画的形式,文件量较小,放大时也不会发生锯齿现象,并且和RealPlayer格式的影片一样,支持“流媒体”播放形式,即允许用户一边下载,一边播放,因此,Flash动画可以流畅地在窄带网络上传输。此外,最新的Flash动画支持导入多种声音和视频文件,并添加了丰富的多媒体交互表现手段,可以帮助用户创建更加优秀的网络动画作品。

动画的交互性强,比其他媒体更有吸引力。动画作为一种交流手段,有着特有的表现形式和优点,例如,用10或20 s就可以讲述一个人的一生。

3.1.3 计算机化的文献信息源——ASCII码和汉字内码

美国标准信息交换代码(ASCII)用8个位(bit)来表示一个ASCII码,构成一个字节(byte),因此一个字节就是信息、实质上是文献信息的最小构成单位。ASCII码实质是7位编码,当高位为0时就是基本ASCII码字符集(27=128个),当高位为1时就组成扩展ASCII码字符集(27=128个),因此整个ASCII码是256个。它们就是所有计算机进行信息处理的基础。

汉字国标码是用2个字节表示的双7位编码,其内码实质上就是用扩展ASCII码字符集中的2个ASCII码。国标码和汉字内码都是二进制的,但也有区别。例如,“啊”字的国标码是(0000110 0100001)(注意这里2字节的高位是空着的),而其内码则为(1000011010100001)(注意它刚好将国标码中高位的“空”补充为“1”了)。汉字的所有输入法均称为“外码”,不过有一个基本的外码非常特殊,是衔接内码和外码的“分水岭”,它就是所有GB汉字系统都有的区位码。区位码是根据国家标准简体汉字GB 2312—1980将全部汉字6 763个放置在一个巨大的94×94的方阵中而得名,区位码长为4,前2位是区号,后2位为位号。区位码就是汉字内码的十进制形式;反之,内码就是区位码的二进制数。

汉字输入码属于外码。不同的输入方法,形成了不同的汉字外码。常见的输入法有以下4类:

①按汉字的排列顺序形成的编码(流水码):如区位码。

②按汉字的读音形成的编码(音码):如全拼、简拼、双拼、搜狗等。

③按汉字的字形形成的编码(形码):如五笔字型、郑码等。

④按汉字的音、形结合形成的编码(音形码):如自然码、智能ABC。

输入码在计算机中必须转换成机内码,才能进行存储和处理。

几乎所有的人类语言文字都用ASCII码来编码,字符集小的(如德语法语等西方语言)直接采用扩展ASCII码就行了;字符集大的就用两个甚至更多的字节来表示,例如,汉字BIG5码最全的字符集就必须用4个字节来代表一个汉字,因此可支持6万多个汉字,不过全是繁体。

常见的汉字编码有3种,即GB码(又称“国标码”,相当于我国的“ASCII”码,流行于我国大陆及新加坡,含简体汉字6 763个);BIG5码(又称“大5码”,流行于我国港澳台地区,含繁体汉字13 000个);HZ码(海外华人中曾流行)。BIG5码仍是双字节,与GB码相同的是首字节高位也为“1”,而第二字节的高位则可以为“1”,也可以为“0”。HZ码也是双字节,不过两个字节的高位均空着,代之以ESC换码系列的“{”和“}”来标识汉字。HZ码是中国留学生为了使汉字信息能在国际网络上直接传送而开发的,后来随着汉字内码标准逐渐完善,HZ码已被淘汰。但我们从中可以想象当初汉字要融入国际大家庭曾经多么煞费苦心。

3.1.4 GBK汉字内码扩展规范

GB 2312虽然包含了几乎所有的常用字,而且在其二级字库中还收集了许多我们也许一辈子都不会用到的字(如音ta:1.譶2.侤3.傝4.嚃5.嚺),但由于只有6 000多汉字,对于数量庞大的汉字来说简直是九牛一毛,不要说缺乏很多古代文献中的字,即使很多常用的人名、地名所含有的汉字都找不到。因此,GB 2312虽然能够应付中国信息化初始阶段的汉字显示、处理的要求,但现在已经完全不能满足日益增长的汉字处理需求了。目前除了个别软件外,大多数信息化产品都不再使用GB 2312,而使用GBK和与GBK对应的Unicode标准。

(1)GBK标准简介

GBK是新的汉字编码标准,全称《汉字内码扩展规范》(GBK),英文名称Chinese Internal Code Specification,中国信息技术标准化技术委员会1995年12月1日制订,确定为技术规范指导性文件。第一版的GBK规范为1.0版。

GB即“国标”,K是“扩展”一词的汉语拼音首字母。GBK向下兼容GB 2312编码,向上支持ISO 10646.1国际标准,是GB向后者过渡中的一个承上启下的标准。

ISO 10646是国际标准化组织ISO公布的一个编码标准,即Universal Multilpe-Octet Coded Character Set(简称UCS),译为《通用多八位编码字符集》,它与Unicode组织的Unicode编码完全兼容。ISO 10646.1是该标准的第一部分《体系结构与基本多文种平面》。我国于1993年以GB 13000.1国家标准的形式予以认可(即GB 13000.1等同于ISO 10646.1)。

ISO 10646是一个包括世界上各种语言的书面形式以及附加符号的编码体系。其中的汉字部分称为“CJK统一汉字”(C指中国,J指日本,K指朝鲜/韩国)。而其中的中国部分,包括了源自中国内地的GB 2312,GB 12345,《现代汉语通用字表》等法定标准的汉字和符号,以及源自中国台湾的CNS 11643标准中第1,2字面(基本等同于BIG-5编码)、第14字面的汉字和符号。

(2)编码特点

GBK也采用双字节表示,总体编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间。总计23 940个码位,共收入21 886个汉字和图形符号,其中汉字(包括部首和构件)21 003个,图形符号883个。

全部编码分为3大区域:汉字区、图形符号区和用户自定义区。

(3)GBK的应用

在基本操作环境方面,微软公司自Windows 95简体中文版始,系统采用GBK代码,它包括了TrueType宋体、黑体两种GBK字库(北京中易电子公司提供),可用于显示和打印,并提供了4种GBK汉字输入法。从浏览器IE 4.0开始,简体、繁体中文版内部提供了一个GBK-BIG5代码双向转换的功能。

微软公司为Internet Exporer提供的语言包中,简体中文支持的两种字库宋体、黑体,也是GBK汉字(珠海四通电脑排版系统开发公司提供)。其他一些中文字库生产厂商,也开始提供TrueType或PostScript GBK字库。

许多外挂式的中文平台,如南极星、四通利方(Richwin)等,提供GBK码的支持,包括字库、输入法和GBK与其他中文代码的转换器。

在互联网方面,目前大多数中文搜索引擎,都能很好地支持GBK汉字的搜索。计算机外设方面,目前国内大多数办公用打印机都支持GBK汉字,但是有很多特种打印机目前还没有全面支持GBK汉字,金融上使用的特种打印机因考虑到人名的重要性,所以支持GBK的比较多。

便携式IT及通信产品方面,WINCE因与Windows一样同出于Microsoft,所以能很好地支持GBK,但PALM因中文化进展迟缓,到目前才比较成熟地支持GBK的产品,大部分手机由于存储空间的限制,目前都还不支持GBK汉字。

3.1.5 Unicode编码体系

如果把各种文字编码形容为各地的方言,那么Unicode就是世界各国合作开发的一种语言。在这种语言环境下,不再会有语言的编码冲突,在同一屏幕下,可以显示任何语言的内容,这就是Unicode的最大好处。

那么Unicode是如何编码的呢?其实非常简单。

就是将世界上所有的文字全部用两个字节统一进行编码。可能你会问,两个字节最多能够表示65 536个编码,够用吗?

韩国和日本的大部分汉字都是从中国传播过去的,字形是完全一样的。例如,“文”字, GBK和SJIS中都是同一个汉字,只是编码不同而已。像这样统一编码,两个字节就已经足够容纳世界上所有语言的大部分文字了。

(1)UCS-2与UCS-4

Unicode的学名是“Universal Multiple-Octet Coded Character Set”,简称为UCS。现在用的是UCS-2,即两个字节编码,而UCS-4是为了防止将来两个字节不够用才开发的。UCS-2也称为基本多文种平面。

(2)兼容codepage

既然统一了编码,那又如何兼容原先各国的文字编码呢?这时就需要codepage了。

什么是codepage?codepage就是各国的文字编码和Unicode之间的映射表。例如,简体中文和Unicode的映射表就是CP936。下面是几个常用的codepage,调用相应的兼容代码页只需修改codepage后面的地址(数字)即可。

codepage=936  简体中文GBK

codepage=950  繁体中文BIG5

codepage=437  美国/加拿大英语

codepage=932  日文

codepage=949  韩文

codepage=866  俄文

兼容代码表的实质不过只是一张代码转换表,例如,GBK的编码对应Unicode的编码(简体中文GBK),通过查这张表,就能简单的实现GBK和Unicode之间代码的转换。

从上述对ASCII码和汉字编码的叙述可见,对于西方文字而言,仅仅一个8位字节的字符编码就够了,而对于汉字文化圈,则需要两个字节,而汉字已经是世界上最大的字符集,因此,对于全人类的文字而言,两个字节的编码足够了。

可见,计算机化的信息(不仅仅是文献了),不管天上飞的,电线中流动的,光纤中闪烁的,全部都是0,1代码的信息流。又由于二进制只有这两个代码,而且信息流的时间管道又约束着,因此除非特别需要,0的位置就总是空着的。于是在我们想象的空间中,计算机化的信息,使世界充斥着无穷无尽、无边无缘、永不停歇的明明灭灭景观。在互联网中是如此,但假如能钻进CPU内部,发现的世界仍然如此。

3.2 计算机文本技术的发展和超文本技术

3.2.1 纸质文本的局限

什么是“文本”?简单地说,文本(text)就是一页书或一页文章展现在我们面前的样子,是经过检索或翻阅最后让我们仔细了解其中信息和知识的界面。它是人与文献直接接触和面对以及交流的主要接口

纸质文本经过上千年的演进和发展,其技术已经非常成熟,除声音不能直接在纸上表达以外,文字、图像等丰富的信息均能在纸上“演绎”。尽管现代印刷术的发展已经使印刷品琳琅满目、丰富多彩,但纸质文本和基于平面的屏幕文本表达本质上是全方位传播的信息时,其能力仍然是有限的。作家在文字的领域纵横驰骋,将文字的表达能力发挥到极致,某些特殊的表达甚至难以被其他方式所取代。例如,唐诗“天上明月光,疑似地上霜,举头望明月,低头思故乡”,如果简单地用图画配图表示,不但很难表达原诗隽永的意境,而且长期这样的教学反而会滋生庸俗化的倾向并导致文字能力的低下。鲁迅先生的《伤逝》和其笔下的祥林嫂都是很有名的,但一搬上屏幕,就大为失色,即为一例。

但文字的表达能力是无穷而有限的,正如数列趋于极限,可以无限逼近,但却永远达不到终点。在这有限中冲击无限的是少数天才作家和勇于创新的人。纸质文本的固有局限是无法最后突破的,例如:

①不能直接表达听觉信息。只能用简谱或五线谱间接表达音乐。在早期计算机文本中甚至很难选用表达声音的标识,如用“sound”指示声音;用一个留声机和喇叭的小图标,旁边再加一只耳朵,让人知道这是音乐文件;豪杰解霸用一只喇叭带声波的图标,当未激活时声波为静止的灰色,当播放时变为波动的彩色。而听觉信息却是仅次于视觉信息的重要来源,开发它们有利于减轻视觉的疲劳。

②纸质文本缺少交互性。

③不便于修改。

④不能表达动画。

⑤不能方便地检索。

3D,4D乃至多维空间比平面的信息表达空间大大增强,当把纸质文本计算机化后,尽管同样是一个屏幕的平面文本,却将以上缺点开始全面“弹劾”,为全方位地表达信息开辟了崭新领域。新的表达空间开阔了新的表达能力,诞生了新的媒体制作职业。例如,Flash动漫(创始者雪村,一首“东北人都是活雷锋”创造了一种崭新的计算机媒体艺术方式)。作家是在平面空间中用字词创造非凡意境的人,艺术家用形象,而多媒体作家(目前还未正式产生此称谓)则使用多媒体在计算机上创作。

3.2.2 计算机文本

但在计算机化的文本早期,要想在一页书信中使用一个小小徽标,或艺术字体,或彩色字符都是难以办到的。

(1)纯文本

计算机的传统文本,主要由单一的文字构成,其中的符号都很少,因此想选择一种不同的字体都办不到。最简单的文本是纯文本,也称正文(TEXT)文本,它是用文本编辑器(如行编辑软件edlin、DOS文本编辑器Edit、Windows的“记事本”和注册表编辑器Register等)产生的,一般用来编辑源程序,其特点是每行后一定有回车符,文末有文件结束符。纯文本不能容纳任何不同字体或修饰。其扩展名缺省为TXT,但也可以是其他任何非特定文件扩展名甚至无扩展名也可。

(2)文书文本

第二类是文章编辑软件,如WPS或Word编辑的文本,这种文本允许较多的字体字号选择,并产生一些如“软回车”之类的用于自动排版的控制符。这类文本已经大量用于办公自动化中,但要作为图书印刷还不行。文书编辑软件和纯文本编辑器在早期都被笼统地称为字处理软件,而且前者通常都包含后者的全部功能,如WPS选N编辑就是编辑源程序,选D编辑就是文书编辑。

(3)排版文本

第三类文本应当是桌面排版系统或桌面印刷系统文本(如北大方正或国外流行的Pagemaker),它们采用更多的字体和更大点阵数的字模,比文书文本多一套排版命令控制符,输出采用激光印字机,因此可获得较好的文本质量(用于书刊印刷)。

(4)多媒体文本

前面3种文本都不能容纳图像和声音,而多媒体文本就能作到。例如,你可在一封书信中,台头加上公司的徽标,插入一幅彩色近照,附上你的手写签名,或录入一段话(书信中用一个麦克风图标表示),等等。这一切都只在同一个软件(如Word)中完成。

多媒体文本集文字(世界各种文字)、图形、图像、声音、音乐、动画等于一身,是一种梦幻般的全息文本,能全方位地表达任何信息。但文本中的特殊控制信息还不能表达,如文本中的文字或图标之间所内含的、所隐藏的关系就无法涉及,因为多媒体文本只是体现视觉和听觉等所表达的东西,而表现思维中的关系和知识单元之间的关系就超过了它的能力。这就产生了下面一个——超文本。

(5)超文本

什么是超文本?

超文本(Hypertext)是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。超文本更是一种用户界面范式,用来显示文本及与文本之间相关的内容。现时超文本普遍以电子文档方式存在,其中的文字包含有可以链接到其他位置或者文档的连接,允许从当前阅读位置直接切换到超文本连结所指向的位置。超文本的格式有很多,目前最常使用的是超文本标记语言(Hyper Text Markup Language,HTML)及富文本格式(Rich Text Format,RTF)。我们日常浏览的网页上的链接都属于超文本。

超文本能按人脑的联想思维模式,非线性地存储、组织、管理和浏览信息的技术。

超文本是基于文本、图像和声音等信息的一种非线性组织形式。在其中的信息单元(基本信息单元可以是一个单词、一个句子、一幅图像或一段音乐),它们不是按线性序列排列,而是依赖数据库中文献单元之间的知识内容的特殊关系和可能出现的相互联系来组织的。换句话说,它是一种内含“智能”的知识网络数据库系统。图3.4是超文本系统的模型。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈