首页 百科知识 计算机的数据

计算机的数据

时间:2022-10-17 百科知识 版权反馈
【摘要】:简而言之,一切可以被计算机加工、处理的对象都可以被称之为数据。计算机中的数据可以分为数值型数据与非数值型数据两类。显然,在计算机内部到处都是由0 和1组成的数据流。计算机中最小的数据单位是二进制的一个数位,简称为位,简写为b。它是计算机进行数据存储和数据处理的运算单位。因此,计算机处理的不只是一些数值,还要处理大量的符号等非数值的信息。

5.2.3 计算机的数据

数据是表征客观事物的、可以被记录的、能够被识别的各种符号,包括字符、符号、表格、声音、图形和图像等。简而言之,一切可以被计算机加工、处理的对象都可以被称之为数据。

计算机中的数据可以分为数值型数据与非数值型数据两类。数值型数据就是常说的“数”(如整数、实数等),它们在计算机中是以二进制形式存放的。而非数值型数据与一般的“数”不同,通常不表示数值的大小,只表示字符或图形等信息,但这些信息在计算机中也是以二进制形式来表示的。

1.数据的存储单位

在计算机内部采用的是二进制。运算器运算的是二进制数,控制器发出的各种指令也表示成二进制数,存储器中存放的数据和程序也是二进制数。显然,在计算机内部到处都是由0 和1组成的数据流。计算机中数据的常用单位有位、字节和字。

(1)位(bit)

计算机中最小的数据单位是二进制的一个数位,简称为位(bit,比特),简写为b。计算机中最直接、最基本的操作就是对二进制位的操作。一个二进制位可表示0或1两种状态。

(2)字节(Byte)

八个二进制数位组成一个字节,通常用B表示,它是数据处理和数据存储的基本单位,一个字节可存放一个ASCII码,两个字节可存放一个汉字国际码。随着计算机存储信息容量的不断扩大,用字节来度量存储容量会出现很大的数字,于是,出现了千字节(KB)、兆字节(MB)、千兆字节(GB),它们之间的关系是:

1B=8bits

1KB=1024B =210B

1MB=1024KB=1024×1024B==220B

1GB=1024MB=1024×1024KB=1024×1024×1024B=230B

(3)字

字是在计算机信息处理系统中,当存储、传送或操作时,作为一个单元的一组字符或一组二进制位。它是计算机进行数据存储和数据处理的运算单位。字长是计算机性能的一个重要指标,字长越长,性能越好。它指的是一个计算机字所包含的二进制位的个数。不同档次的计算机有不同的字长。常用的字长有8、16、32和64位。

例如:一张3.5英寸软盘容量是1.44MB,问可存储多少字节的信息?

1.44MB=1.44×1024×1024B=1509949.44B

2.非数值数据的表示

计算机除了用于数值计算外,还有其他方面的应用。因此,计算机处理的不只是一些数值,还要处理大量的符号(如英文字母、汉字)等非数值的信息。例如,当要用计算机编写文章时,就需要将文章的各种符号、英文字母、汉字等输入计算机,然后由计算机进行编辑排版。因此,计算机要对各种文字进行处理。

(1)ASCII码

任何形式的数据进入计算机后都必须用0和1的二进制编码形式表示。对英文字母、数字和标点符号等字符的二进制编码称为字符编码。

ASCII(American Standard Code for Information Interchange)码是目前计算机中最普遍采用的一种字符编码。该码开始时是美国国家信息交换标准字符码,后来被采纳为一种国际上通用的字符编码。

ASCII码是7位的编码,但由于字节(8位)是计算机中的常用单位,故仍以1字节来存放一个ASCII码,每个字节中多余的最高位取为0。ASCII码可以代表128个元素,其中包括34个通用控制字符、10个十进制数码、52个英文大、小写字母和32个各种标准符号和专用符号。

在ASCII码中,10个数字字符是按从小到大的顺序连续编码的,而且它们的ASCII码也是从小到大排列的。因此,只要知道了一个数字字符的ASCII码,就可以推算出其他数字字符的ASCII码。例如,已知数字字符2的ASCII码为十进制数50,则数字字符5的ASCII码为十进制数50+3=53。

同样的,在ASCII码中,26个英文大写字母和26个英文小写字母是按A~Z和a~z的先后顺序分别连续编码的。因此,只要知道了一个英文大写字母的ASCII码,就可以根据字母顺序推算出其他大写字母的ASCII码。例如,已知英文大写字母A的ASCII码为十进制数65,故英文字母E的ASCII码为十进制数65+4=69。

(2)汉字编码

计算机在处理汉字时,汉字字符也是以二进制代码的形式表示的。由于汉字的特殊性,在汉字的输入、存储、处理和输出过程中所使用的汉字代码是不一样的,即也要对汉字进行编码,一般有以下几种:国际码、有用于汉字输入的机内码,用于计算机内部汉字存储和处理的机内码和字形码。

●国标码

国际码是中华人民共和国国家标准信息交换汉字编码,也被称为汉字交换码,其代号为GB2312-80,国标码中共收集了6763个汉字和682个图形字符,共计7445个。其中图形符号682个,分布在1~15区;一级汉字(常用汉字)3775个,按汉语拼音字母顺序排列,分布在16~55区;二级汉字(不常用汉字)3008个,按偏旁部首排列,分布在56~87区;88区以后为空白区,以待扩展。

国际码是一种机器内部编码,主要用于统一不同系统所用的不同编码,将不同系统使用的不同编码统一转换成国际码,以实现不同系统之间的汉字信息交换。

●区位码

区位码是将GB 2312-80的全部字符集组成一个94×94的方阵,每一行称为一个“区”,编号为0l~94;每一列称为一个“位”,编号为0l~94,这样就得到GB 2312-80的区位图,用区位图的位置来表示的汉字编码,称为区位码。

●机外码

机外码是指操作人员通过西文键盘上输入的汉字信息编码。它由键盘上的字母(如汉语拼音或五笔字型的笔画部件)、数字及特殊符号组合构成。典型的输入码有郑码输入法、五笔字型、全拼输入法、双拼输入法、微软输入法、区位码、自然码、智能ABC输入法等,是用户与计算机进行汉字交流的第一接口

●机内码

机内码是指汉字在计算机内部表示的代码,简称内码,是指汉字在计算机内部进行存取操作时所用的编码。一个汉字的机内码占两个字节,分别称为高位字节与低位字节。

机内码与国标码、区位码之间的相互转换关系是:区位码的区码与位码都分别加上十六进制数20H得到汉字的国标码;然后在国标码的基础上,分别给国标码的两个字节都加十六进制数80H得到对应的机内码。因此,要将汉字的区位码换成机内码,只要直接在其区码和位码上加上十六进制数A0H即可。

根据他们的转换方法,机内码的两个字节与区位码的关系如下:

机内码高位=区码+20H+80H=区码+A0H

机内码低位=位码+20H+80H=位码+A0H

其中需要注意的是,公式中的区码与位码都是十六进制数

例如,汉字“啊”的十进制区位码是“1601”,用十六进制表示位“1001H”,它的区码为10H,位码为01H,则它的机内码高位和低位计算如下:

机内码高位=区码+A0H=10H+A0H=B0H

机内码低位=位码+A0H=01H+A0H=A1H

因此,汉字“啊”的机内码用十六进制数表示位“B0A1H”。

●字形码

字形码是表示汉字字形信息(如汉字的结构、形状、笔画等)的编码,用来实现计算机对汉字的输出(显示、打印)。由于汉字是方块字,因此字形码最常用的表示方式是点阵形式,有16×16点阵、24×24点阵、48×48点阵等等。

例如,16×16点阵的含义为:有256(16×16=256)个点来表示一个汉字的字形信息。每个点有“亮”或“灭”两种状态,用一个二进制们的“1”或“0”来对应表示。因此,要存储一个16×16点阵的汉字需要256个二进制位,共32个字节。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈