万维网和网上数据库的分析介绍

时间：2024-10-13 理论教育版权反馈

【摘要】：同年12月,CERN首次启动了万维网并成立了全球第一个WWW网站info.cern.ch。但并不像大多数普通人认为的那样,万维网的建立是通向致富的捷径。但“万维网之父”却依然坚持着自己清贫的科研工作。

10.3.1　万维网的发明人蒂姆·伯纳斯-李

(1)Web之父——Tim Berners-Lee

蒂姆·伯纳斯-李,英国人,杰出的物理学家和计算机科学家,麻省理工学院教授,万维网的发明者,万维网联盟(W3C)主席。伯纳斯-李1955年出生于伦敦市郊区一书香门第,拥有出众的才华。

pagenumber_ebook=264,pagenumber_book=264

蒂姆进入牛津大学物理系学习,他在学习期间,就曾用烙铁焊接旧电视机及一些部件构造了自己的第一台电脑。1976年毕业后,曾先后供职于英国一些高技术公司,从事集成电路和系统设计研究,其出众的才华逐渐得以展露。

(2)机遇来临

1984年,一个偶然的机会,蒂姆来到瑞士日内瓦,进入著名的由欧洲原子核物理研究所CERN建立的粒子实验室。在这里年轻的蒂姆接受了一项极富挑战性的工作:为了使欧洲各国的核物理学家能通过计算机网络及时沟通、传递信息进行合作研究,委托他开发一个软件,以便使CERN分布在世界各地的物理实验室、研究所的最新信息、数据、图像资料可供大家共享。

作为一名软件工程顾问,他开发的这一软件被称为Enquire(探寻),它使文件中的单词能够和其他一些文件相关联。伯纳斯-李说:“它为万维网打下了概念上的基础”。

(3)机遇偏爱有准备的人

如题,这一科学发现的经典定律再一次被证实。1989年3月,继蒂姆开发出“探寻”软件之后,蒂姆向CERN递交了一份立项建议书,建议采用超文本技术(Hypertext)把CERN内部的各个实验室连接起来,在系统建成后,将可能扩展到全世界。

工作期间,一天,蒂姆端着咖啡,经过实验室走廊,身旁的紫丁香花团锦簇、正在怒放,盛夏幽雅的花香伴随着醇香的咖啡味飘入实验室,刹那间里蒂姆脑中灵感迸发:人脑可以透过互相连贯的神经传递信息(咖啡香和紫丁香),为什么不可以经由电脑文件互相连接形成“超文本”呢?

说干就干,1989年仲夏之夜,蒂姆成功开发出世界上第一个Web服务器Httpd和第一个客户端浏览编辑程序World Wide Web。同年12月,CERN首次启动了万维网并成立了全球第一个WWW网站info.cern.ch(至今仍是CERN的官方网站)。虽然这个Web服务器简陋得只能说是CERN的电话号码簿,它只是允许用户进入主机以查询每个研究人员的电话号码,但它实实在在是一个所见即所得的超文本浏览/编辑器。

蒂姆为他的发明正式定名为World Wide Web,即我们熟悉的WWW。1991年5月WWW在Internet上首次露面,这个呱呱坠地的“宁馨儿”立即引起轰动,获得了极大的成功,从此揭开了Internet的新纪元,Web时代开始了,从此全世界也开始了真正的网上冲浪。

(4)无所不包的Web平台堪称杰作

Web通过一种超文本方式,把网络上不同计算机内的信息有机地结合在一起,并且可以通过超文本传输协议(HTTP)从一台Web服务器转到另一台Web服务器上检索信息。Web服务器能发布图文并茂的信息,甚至在软件支持的情况下还可以发布音频和视频信息。此外,Internet的许多其他功能,如E-mail,Telnet,FTP,WAIS等都可以通过Web实现。也就是说,Web对于前期互联网所获得的一切成就,几乎是完全透明的,“一切好东西都没有落下”。

美国著名的信息学家、《数字化生存》的作者尼葛洛庞帝教授认为:“1989年是Internet历史上划时代的分水岭。的确,WWW技术给Internet赋予了强大的生命力,Web浏览的方式使互联网焕发出靓丽的青春。”

(5)博大胸怀的学者风范令人景仰

在今天作为Web之父的蒂姆·贝纳斯-李已经功成名就。但并不像大多数普通人认为的那样,万维网的建立是通向致富的捷径。与那些众多的依托互联网一夜暴富人士相比,蒂姆仍然坚守在学术研究岗位上,那种视富贵如浮云的胸襟,真正表现了一个献身科学的学者风度。

是不是蒂姆没有看到WWW的价值呢?不是的。其实早在1992年,也就是著名的网景公司的马克·安德森发明的浏览器尚未问市之前,蒂姆和他的研究伙伴曾向欧洲权威的律师咨询,考虑开放“网软”公司(Websoft)销售网络浏览器软件,但他最后放弃了这个决定。因为蒂姆当时预见到一旦他的浏览/编辑器问世,势必引起网络软件大战,使互联网陷入群雄割据、四分五裂的局面。为了他所钟爱的WWW事业,他决定在WWW的百家争鸣中扮演一个“技术直辖市”的角色,而不是角逐财富的商人。

20世纪90年代以来互联网的发展正如蒂姆所预见的,网景与微软的浏览器之争,被称为环球第一商战,快速膨胀的网络几乎使国际网络瘫痪。

由蒂姆领导的总部设在美国麻省理工(MIT)的W3C现已有40余名工作人员,下分若干个研究开发小组,任务就是力图引导网络革命的发展方向,蒂姆风趣地把它称之为一项“如驾驶着大雪橇从山顶上以加速度向下滑的惊险工作”。

(6)2012伦敦奥运会开幕式

在伦敦奥运会开幕式上,蒂姆·伯纳斯-李爵士亮相,并打出了“This is for Everyone”字样,大家都明白,这是指“万维网献给所有人”。

互联网发明者、英国人蒂姆·伯纳斯-李当晚作为科学明星,同样成为开幕式的亮点。坐在他熟悉的“电脑”前,接受到来自全世界的感谢。

因无偿把万维网构想推广到全世界而改变人类生活方式,蒂姆·伯纳斯-李被英国人视为骄傲。正因如此,“感谢蒂姆”环节中,独自一人坐在“电脑”前的他享受了来自全世界的热烈掌声。

(7)姗姗来迟的“千年技术奖”

1989年的时候,如果蒂姆·伯纳斯-李为自己发明的万维网申请了知识产权,那么如今的互联网世界将完全是另外一个模样。天下真有免费的午餐!蒂姆将自己的发明无私地奉献给了全世界,分文不取。

他给无数人创造了暴富的平台,自己却一直苦于无钱修厨房,开的车也只是一辆大众牌旧车。而借机发大财者比比皆是。WWW在1990年12月首次应用,1991年夏天伯纳斯-李就将WWW程序的所有源代码在互联网上公之于众。不久,网络公司便风起云涌。一夜之间,一批富翁呱呱坠地。但“万维网之父”却依然坚持着自己清贫的科研工作。时势造就了一位英雄,英雄的奖赏却来得太迟。

2004年6月15日,在芬兰埃斯波市举行的一个仪式上,芬兰技术奖基金会指定时年49岁的蒂姆·伯纳斯-李为“千年技术奖”(全球最大的技术类奖)的首位获得者,并颁发给他100万欧元的奖金。别人都是实至名归,蒂姆15年后才名至实归。

(8)互联网精神引人深思

在他之前,没有浏览器,没有超文本语言,没有“WWW”,没有URLs,网络世界一片空白。如果当初为谋取个人利益,将自己的WWW设想乃至后来的万维网申请知识产权和专利,如今的互联网世界不可想象。蒂姆假想说:“那样的话,世界上至少会有16种不同的Web。有CERN网,有微软网,有苹果网……”

很多人说蒂姆太傻,放弃了成为超级富翁的机会。但蒂姆却不这么想,他认为对软件的专利保护已经危及推动互联网技术发展的核心精神。“问题是,如果有人正在写某个程序,这时后边来一个人瞥了两眼就说‘喂,不好意思,你写的程序里从35句到42句我已经申请了专利。’这无疑伤害了科学技术的发展。”

伯纳斯-李本来可以在金钱上与盖茨一比高低,但他的这一举措却为互联网的全球化普及翻开了里程碑式的篇章,让所有人都有机会接触到互联网,也圆了那些.com公司创建者们的富翁梦。即便如此,伯纳斯-李仍然十分谦虚,总是以一种平静的口气回应:“我想,我没有发明互联网,我只是找到了一种更好的方法。”

他这儿所说的都是对的,但也是过度的谦逊了。过去许多其他的伟大发明家(如爱迪生)都领导着科研人员的团队,但是伯纳斯-李却独自一人发明了美妙的万维网。从这个意义上来说,他是个具有非凡想象力的性格孤僻的天才。

他或许没有从他的发明中获利,但是他受到人们广泛的尊敬。除了被授予骑士爵位外,他还有一大堆荣誉学位和数不清的奖章和奖品。2004年,他被投票选为在世的最伟大的英国人(其实他早已入籍美国)。对于发明了如此有用的东西接着又简单地放弃了他的专利的人,这是个实至名归的荣誉,他的发明在过去20年里改写了世界信息组织、传播和共享的方式。

回顾过去,蒂姆,这位满怀浪漫理想主义的科学家,以谦和的语气说:“Web倒是可以给梦想者一个启示——你能够拥有梦想,而且梦想能够实现。”

的确,Web是蒂姆在紫丁香和实验室之间的梦想,而伟大的国际互联网正是在无数像蒂姆·伯纳斯-李这样的先驱们的无私耕耘下成长起来的。

10.3.2　统一资源定位器URL

(1)统一资源定位器的定义

URL是Uniform Resource Locator的缩写,译为“统一资源定位符”。通俗地说,URL是Internet上用来描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。

现代Web浏览器作为因特网各类信息服务的公共平台,将访问采用各种不同应用协议的应用服务器,此外,用户根据需要可能直接访问某个应用服务器的某个目录,或直接访问其中的某个文件。显然,用户在使用Web浏览器时,仅通过服务器的IP地址或域名无法区分服务器所使用的协议和提供的服务。这一矛盾在访问同时提供多种应用服务的同一台物理服务器时尤为突出,这就是Web浏览器采用URL通用资源地址。

1)URL的基本组成

统一资源定位器有时也被简称为网页地址。它如同网络世界里的“门牌号码”,是因特网上标准的资源地址(Address)。它最初是由蒂姆·伯纳斯-李发明用来作为万维网的地址。现在它已经被万维网联盟编制为因特网标准RFC 1738和RFC 1808。

URL的格式由下列3个部分组成:

①协议(或称为服务方式)。

②存有该资源的域名地址或主机IP地址(有时也包括端口号)。

③主机资源的具体地址,如目录和文件名等。

在RFC 1738中,对URL是这样定义的:“统一资源定位器(URL)是对可以从因特网得到的资源的位置和访问方法的一种简洁的表示。URL给资源的位置提供一种抽象的识别方法,并用这种方法给资源定位。只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找其属性等。”

这里的“资源”泛指一切因特网上可以被访问的对象,包括文件目录、文件、文档、图像、声音等,以及和因特网相连的任何形式的数据。“资源”概念还包括电子邮件的地址和USENET新闻组,或USENET新闻组中的报文。数据库终端也使用统一资源定位器连接其服务器。实际上任何终端-服务器程序(即客户机-服务器模式)都可以使用统一资源定位器来连接。

人们可将URL想象为一个文件名在网络世界里的扩展,把URL看作与因特网相连的机器上的任何可访问对象的一个指针。由于对不同对象的访问方式不同(如通过WWW,FTP 等),因此,URL还要指出读取某个对象时所使用的访问方式。这样URL由以冒号隔开的两大部分组成,并且对字符的大小写没有要求。

2)URL可使用的多种传输协议和传送方式

RFC规定URL可使用多种访问方式(或Internet的服务方式):

①基本而常用的4种协议

•http://是采用HTTP超文本传输协议的Web服务器。

•telnet://是采用Telnet远程登录协议的公共与注册服务器。

•ftp://是采用FTP文件传送协议的公共匿名与注册fw服务器。

•gopher://是采用Gopher信息浏览协议的Gopher服务器。

其中,如用户使用浏览器访问Web服务器或通过域名访问其第一个子域名与协议名相同的服务器时,通常可以省略URL地址中的协议名与“://”符号。例如,用户可将http:// www.microsoft.com和ftp://ftp.microsoft.com分别简写为www.micosoft.com和ftp. microsoft.com。

②基本而常用的4种传送方式

•mailto:是采用电子邮件传送方式,以默认电子邮件账户打开电子邮件软件包“撰写邮件”窗口。

•news://是采用NNTP新闻组传送方式,打开新闻组软件包“阅读稿件”窗口,建立或访问相应的新闻组服务器。

•file://是采用本机文件传送方式,访问本地主机磁盘中的文件。

•wais:广域信息服务系统(Wide Area Information Servers,WAIS)。

其中,前两种传送方式一般省略“://”符号。

(2)URL的结构组成

URL的“://”后一部分是服务器的名称,此即域名。服务器是指可被访问数据的计算机。例如,Web服务器就是一个使用Web服务器软件,在因特网上进行网页传输的计算机。大多数Web服务器都以www作为域名的前缀。假设某个饭店的Web服务器的域名是www.fooyong.com,如果访问这个地址,就会进入该站点的主页。主页就像是一本书的封面,它是网站的标志,也包含了通往其他网站主页的链接。

一个Web站点通常包含了不止一个网页。每个网页被保存为单独的文件并由不同的URL进行查阅。网页的URL可以是任何目录的映射,如上述饭店有一个网页是当天的专刊。专刊被存储在一个information目录下的specieals.html的文件里。这个网页的URL就可以是www.fooyong.com/informatiom/specieals.html。

如图10.1所示为URL的各个组成部分。

pagenumber_ebook=269,pagenumber_book=269

图10.1　URL的组成

此例的URL,其运作方式是:告知浏览器,使用HTTP协议与名为www.fooyong.com的万维网服务器连接,并通过其information目录,检索并调用名为specials.html的文档(首页)。

(3)URL示例

1)文件的URL

用URL表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路径(即目录)和文件名等信息。有时可以省略目录和文件名,但“/”符号不能省略。

例如,file://ftp.linkwan.com/pub/files/foobar.txt。

代表存放主机ftp.linkwan.com上的pub/files/目录下的一个文件,文件名是foobar.txt。

又如,file://ftp.linkwan.com/pub,代表主机ftp.linkwan.com上的目录/pub。

再如,file://ftp.linkwan.com/,代表主机ftp.linkwan.com上的根目录。

2)Gopher的URL

Gopher服务器有可能使用特殊的端口,在这种情况下,主机IP地址与端口之间要用“:”隔开。

例如,gopher://gopher.linkwan.com/,表示主机gopher.linkwan.com上的gopher服务器。

又如,gopher://gopher.banzai.edu:1234,表示主机gopher.banzai.edu上的gopher服务器,在端口1234上。

3)网络新闻的URL

利用URL表示网络新闻组时,如果是usenet的话只要指定出新闻组的名字即可。

例如,news:rec.gardening,表示usenet上的rec.gardening新闻组(园艺)。

10.3.3　以URL为核心的互联网诸要素

以URL为核心的互联网诸要素如图10.2所示。

图10.2把互联网(包括因特网和Web网)的诸要素全部放置在一起,以便观察它们之间的相互关系。图中可见作为互联网技术核心的统一资源定位器URL,主要包含了3大部分(图中用椭圆标出):第一部分是互联网支持的传输协议种类,它们也是互联网信息资源的种类和不同的服务方式,每一种传输协议都覆盖一大批服务器提供信息服务。当然,其中支持HTTP的WWW服务器占主流,注意这一点,即全球几十亿台联网计算机中,以各种服务器为主的集合构成了互联网信息资源的大本营和基地。URL的第二部分是域名地址,它直接标识互联网上包括服务器在内的所有计算机的地址,域名地址再经分布各地的域名服务器的“解析”,得到计算机的IP地址,IP协议根据IP地址全球寻址。第三部分就是文件名,文件名所对应的文件,其格式是多媒体、超媒体的,其内容正是我们寻求的目标。

pagenumber_ebook=270,pagenumber_book=270

图10.2　以URL为核心的互联网各要素

URL的“协议”将互联网上各种信息资源和服务方式,包括后来居上的WWW,和与之兼容的早前的各种协议囊括其中,它们对应着互联网上最重要、最有价值的所有服务器的集合,它们是资源子网的主部,所有的程序、数据库等均置于其上。而“域名”则将互联网上所有计算机“一网打尽”,提供了一种强大的寻址功能,“域名”对应着全球计算机的集合。但“文件”才是我们最需要、最有用的东西,是互联网上的“文献”信息,是一切传输技术、导航技术为之服务的东西。

主页是一个网站的起点或者说是主目录,因为其上包含了许多链接,有链接到其他网页的,也有链接到其他主机或服务器的。网页是互联网全部信息资源的核心,也是互联网信息世界的一个个“细胞”。

互联网上有多少网页?

这好像是一个可以回答的问题,是这样吗?

其实没有人真正知道,互联网这个无限的数字世界到底由多少网站或个人网页组成。Kevin Kelly,有线杂志的创办者,表示至少存在着1万亿个网页,也就是说比我们大脑的神经元还多。

“互联网有1万亿个网页,人类的大脑有1 000亿个神经元。”Kelly在他2010年出版的书《科技需要什么》中写道:每个动物神经元都和其他成千上万的神经元连接,而每个网页平均连接其他60个网页。也就是说,互联网上网页间总计有1万亿个“神经键”。

互联网协会(由互联网的建立者Tim Berners-Lee成立)正在寻找一种方法,至少可以从某种程度上回答互联网到底有多大。在Google提供了100万美元的资助后,协会的CEO, Steve Brattthe在最近的一次采访中表示,即将公布联机搜索项目的研究结果,也就是网络指数。

Tim Berners-Lee把阿帕网留下的域名地址,经过添加前缀(传输协议)和后缀(路径和文件名)后,“大笔一挥”,竟然成就了URL的伟大杰作!其实,目录路径和文件名,也并非他的作品,这是早在DOS时代就已定型的,要说到贡献的话,自然属于比尔·盖茨的了,但要将其指引深度达到网页级,则非DOS的目录结构的安排不可,而且从计算机存储延伸到某个目录文件也是顺理成章的事。而对于早在WWW以前存在的林林总总的协议而言,Tim并不打算去评价哪一个协议,好还是不好,只是在URL前端开辟一个“字段”,容纳诸多协议,并谦虚地把HTTP自己放到最后一个位置上(但很快如众星捧月般地被推到了最前端)。

可见,URL的前缀将全球的服务器按传输协议分成几大阵营,然后在中段的域名字段部分唯一地指明服务器和所有计算机的地址,最后指明信息内容存储在哪一个目录路径下,是什么文件名。

“协议”的辨别深度是大致区分不同的信息传输方式,而域名的指示深度是一台具体的含有真实地理位置的计算机,而整个URL的检索深度则是在虚拟世界漫天飞舞的几百亿张网页中定位!

但作为不涉及网页内容的指示器而言,URL搜索网页的能力已经非同小可。要进一步搜索一张张网页的内容,这不是URL的范围,而是属于搜索引擎活跃的领域了。

图10.2中描述了从用户A向用户B发送信息的过程。以发送E-mail为例。从用户A端编制完成的文档,将被分成不大于1 500字节的小块的数据包,每个数据包依次进入TCP/ IP的应用层等,每进入一层就在数据包的前面添加上该层的控制头,最后形成“以太网头+ IP头+TCP头+用户数据+以太网尾”的数据包,其数据流通过物理层进入通信子网。由于每个数据包都带有自己的和目标计算机的IP地址,而且还往往带着所经历的路由,因此,这些小巧的自治的数据包在虚拟世界里自由灵活地穿梭,而且绝不会迷路!在用户B接受该数据包时,数据包经过层层去掉控制头信息,最后将用户数据送达用户B端,当几个数据包先后到达后,由于每个包预先编上了号码,这时就按编号顺序重组,这样一份完整的数据就被传送到了目标地点。

【思考题】

①图10.2中漏画了哪一个最重要的互联网的角色?(速答:用户端计算机上的浏览器)

②图10.2中哪些是原来Internet的元素?(速答:域名、DNS系统、路径和文件名(不含将其置于URL尾部的作法)、由域名地址衍变而来的E-mail地址、TCP/IP协议、FTP等“老”协议及各自相应的用户端程序、通信子网和资源子网的概念等)

③图10.2中哪些元素是属于WWW方式的?(速答:URLs、域名地址前的WWW标志、HTTP协议、超链接、主页、网页、HTML、3W浏览器(如IE)、多媒体等)

④图10.2中哪些元素属于HTTP协议规范?(速答:URL、WWW服务器及3W浏览器、主页、链接和超链、网页制作规范HTML等)

10.3.4　ISP——互联网服务提供商

当计算机连入因特网时,并不是直接连接到主干网上,而是连接到一家因特网服务商(ISP),通过它再与主干网相连。ISP是Internet Service Provider的缩写,翻译为互联网(接入)服务提供商,即向广大用户综合提供互联网接入业务、信息业务和增值业务的电信运营商。

ISP是经国家主管部门批准的正式运营企业,享受国家法律保护。作为ISP一般需要有专线与Internet连接,有运行各种Internet服务程序的主机(服务器)可以随时提供各种服务,还要有IP地址资源以便给申请接入的计算机用户分配IP地址。

我国主要的ISP为3大电信运营商:中国电信、中国联通、中国移动。不管采用哪种方法接入Internet,都需要到ISP那里办理手续。

ISP的服务在很大程度上就像本地的电话公司。申请因特网的接入服务,ISP就按月收费。ISP提供一个通信软件以及一个用户账号。用一个调制解调器把计算机连到电话线上,然后通过电话线和ISP的主机进行拨号连接。连接好后,ISP就在计算机和因特网主干网之间进行数据传送。通过电话线与因特网建立一个临时连接也被称为拨号连接。拨号连接只是临时的,当计算机挂断以后,连接也就断开了。

10.3.5　互联网内容提供商ICP

互联网内容提供商(Internet Content Provider,ICP)是指在互联网上提供大量丰富且实用信息的服务提供商。ICP提供的产品就是网络内容服务,包括搜索引擎、虚拟社区、电子邮箱、新闻娱乐等。互联网内容提供商可以允许广大用户用专线、拨号上网等各种方式访问该服务提供商的服务器,提供各类信息服务。

与ISP接入服务商一样,ICP同样是经国家主管部门批准的正式运营企业,享受国家法律保护。一般大型的门户网站,如新浪、搜狐、数据库检索系统网站等都是内容提供商。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈