首页 百科知识 有关网页的基本知识

有关网页的基本知识

时间:2022-10-12 百科知识 版权反馈
【摘要】:WWW是运行在Internet顶层的服务集合,是基于Intranet/Internet的、全球互联的、分布式的、动态的、多平台的交互式的超文本查询系统。Web页就是World Wide Web文档,通常称为网页。另外,许多浏览器还支持其他的URL类型及其相应的协议,如FTP、Gopher、HTTPS。超文本传输协议是WWW客户机与WWW服务器之间的应用层传输协议。HTTP协议是无状态协议。一旦激活,通道便被认为不属于HTTP通信,尽管通道可能是被一个HTTP请求初始化的。

第一节 有关网页的基本知识

一、WWW基本概念

WWW是运行在Internet顶层的服务集合,是基于Intranet/Internet的、全球互联的、分布式的、动态的、多平台的交互式的超文本查询系统。

1. WWW的特点

(1)WWW服务的基础是Web页面,每个服务站点都包括若干个相互关联的页面。

(2)WWW的核心是Web服务器,由它提供各种形式的信息。

(3)以客户机(Client)/服务器(Server)模式运行。

2. 站点(网站)

站点是指Internet上能够提供Internet服务的一个位置,该位置由IP地址域名来描述。一个网站需要由一台或多台服务器来负责实现其Internet服务。

一般的Web站点由一组相关的Web页和其他文件组成,这些文件存储在Web服务器上。当用户访问一个Web站点时,该站点中有一个页面总是被首先打开,该页面称为首页或主页。

主页也称起始页,通常看作Web的入口,它包含了同一站点上其他页以及相关站点的链接。主页通常有固定的文件名,一般是Index.htm(或.html、.asp、.aspx、.php、.jsp)或default.htm(或.html、.asp、.aspx、.php、.jsp)等,可以在Web服务器上设置站点的默认主页名。

3. Web页

Web页就是World Wide Web文档,通常称为网页。Web页一般由HTML文件组成,其中包含有相关的文本、图像、声音、动画、视频以及脚本命令等,位于特定计算机的特定目录中,其位置可以根据URL确定。按照Web服务器响应方式的不同,可以将Web页分为静态网页和动态网页。

4. Web服务器

Web服务器通常是指安装了服务器软件的计算机,它使用HTTP或FTP之类的Internet协议来响应TCP/IP网络上的Web客户请求。各种操作系统下都有提供Web服务器功能的软件:

(1)Windows环境下的Web服务器软件有:Microsoft的IIS和PWS。

(2)UNIX和Linux环境下的Web服务器软件有:Apache Web Server、Weblogic和Sun One Active Server Web等。

5. Web浏览器

Web浏览器是指在网上客户端用于显示HTML文档的内容的软件,并能够解释执行客户端的脚本语言(VBScript和JavaScrip)。

网页浏览器主要通过HTTP协议与网页服务器交互并获取网页,这些网页由URL指定,文件格式通常为HTML,并由MIME在HTTP协议中指明。一个网页中可以包括多个文档,每个文档都是分别从服务器获取的。大部分的浏览器本身支持除了HTML之外的广泛的格式,例如 .JPEG、.PNG、.GIF等图像格式,并且能够扩展支持众多的插件(plug-ins)。另外,许多浏览器还支持其他的URL类型及其相应的协议,如FTP、Gopher、HTTPS(HTTP协议的加密版本)。HTTP内容类型和URL协议规范允许网页设计者在网页中嵌入图像、动画、视频、声音、流媒体等。

常用的Web浏览器有Microsoft Internet Explorer(IE)、火狐浏览器(Firefox)、腾讯TT浏览器、傲游浏览器、360浏览器等。

6. Web的运行模式

Web服务以浏览器/服务器(B/S)模式运行。信息资源以页面形式存储在Web服务器上,用户通过客户端的Web浏览器向Web服务器发出查询请求;Web服务器根据客户端请求的内容做出响应,并将存储在服务器上的某个页面发送给客户端;Web浏览器对收到的页面进行解释并将页面显示给用户;在客户端接收完对象后,关闭连接。

二、HTTP和FTP协议

(一)超文本传输协议(HTTP)

1. HTTP的概念

超文本传输协议(Hyper Text Transfer Protocol,HTTP)是WWW客户机与WWW服务器之间的应用层传输协议。HTTP协议是一种面向对象的协议,为了保证WWW客户机与WWW服务器之间通信不会产生二义性,HTTP精确定义了请求报文和响应报文的格式。HTTP会话过程包括以下4个步骤:

(1)连接(Connection)。

(2)请求(Request)。

(3)应答(Response)。

(4)关闭(Close)。

2. HTTP协议的主要特点

HTTP协议的主要特点可概括如下:

(1)支持客户机/服务器模式。

(2)简单快速。客户机向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户机与服务器联系的类型。由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度很快。

(3)灵活。HTTP允许传输任意类型的数据对象。正在传输的数据类型由Content-Type加以标记。

(4)无连接。无连接的含义是限制每次连接只处理一个请求。服务器处理完客户机的请求,并收到客户机的应答后,即断开连接。采用这种方式可以节省传输时间。

(5)无状态。HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答速度就较快。

3. HTTP协议的几个重要概念

(1)连接(Connection):一个传输层的实际环流,它建立在两个相互通信的应用程序之间。

(2)消息(Message):HTTP通信的基本单位,包括一个结构化的八元组序列并通过连接传输。

(3)请求(Request):一个从客户机到服务器的请求信息,包括应用于资源的方法、资源的标识符和协议的版本号。

(4)响应(Response):一个从服务器返回的信息,包括HTTP协议的版本号、请求的状态(例如“成功”或“没找到”)和文档的MIME类型。

(5)资源(Resource):由URI标识的网络数据对象或服务。

(6)实体(Entity):数据资源或来自服务资源的回映的一种特殊表示方法,它可能被包围在一个请求或响应信息中。一个实体包括实体头信息和实体的本身内容。

(7)客户机(Client):一个为发送请求目的而建立连接的应用程序。

(8)用户代理(User Agent):初始化一个请求的客户机。它们是浏览器、编辑器或其他用户工具。

(9)服务器(Server):一个接受连接并对请求返回信息的应用程序。

(10)源服务器(Origin Server):是一个给定资源可以在其上驻留或被创建的服务器。

(11)代理(Proxy):一个中间程序,它可以充当一个服务器,也可以充当一个客户机,为其他客户机建立请求。请求是通过可能的翻译在内部或经过传递到其他的服务器中。一个代理在发送请求信息之前,必须对信息进行解释,并且如果可能还要重写它。

代理经常作为通过防火墙的客户机端的门户,代理还可以作为一个帮助应用来通过协议处理没有被用户代理完成的请求。

(12)网关(Gateway):一个作为其他服务器中间媒介的服务器。与代理不同的是,网关接受请求就好像对被请求的资源来说它就是源服务器;发出请求的客户机并没有意识到它在同网关打交道。网关经常作为通过防火墙的服务器端的门户,网关还可以作为一个协议翻译器来存取那些存储在非HTTP系统中的资源。

(13)通道(Tunnel):是作为两个连接中继的中介程序。一旦激活,通道便被认为不属于HTTP通信,尽管通道可能是被一个HTTP请求初始化的。当被中继的连接两端关闭时,通道便消失。当一个门户(Portal)必须存在或中介(Intermediary)不能解释中继的通信时,通道被经常使用。

(14)缓存(Cache):反应信息的局域存储。

4. HTTP协议的运作方式

下面介绍一下HTTP协议的内部操作过程。

首先,简单介绍基于HTTP协议的客户机/服务器模式的信息交换过程,它分四个过程,建立连接、发送请求信息、发送响应信息、关闭连接。

(1)建立连接

连接的建立是通过申请套接字(Socket)实现的。客户机打开一个套接字并把它约束在一个端口上,如果成功,就相当于建立了一个虚拟文件。以后就可以在该虚拟文件上写数据并通过网络向外传送。

(2)发送请求信息

打开一个连接后,客户机把请求消息送到服务器的停留端口上,完成提出请求动作。

(3)发送响应信息

服务器在处理完客户机的请求之后,要向客户机发送响应消息。

(4)关闭连接

客户机和服务器双方都可以通过关闭套接字来结束TCP/IP对话。

在WWW中,“客户机”与“服务器”是一个相对的概念,只存在于一个特定的连接期间,即在某个连接中的客户机在另一个连接中可能作为服务器。WWW服务器运行时,一直在TCP 80端口(WWW的默认端口)监听,等待连接的出现。

(二)文件传输协议(FTP)

FTP是一个8位的客户机/服务器协议,能操作任何类型的文件而不需要进一步处理,就像MIME或Unencode一样。但是,FTP有着极高的延时,这意味着,从开始请求到第一次接收需求数据之间的时间会非常长,并且不时地必需执行一些冗长的登录进程。

FTP服务一般运行在20和21两个端口。端口20用于在客户机和服务器之间传输数据流,而端口21用于传输控制流,并且是命令通向FTP服务器的进口。当数据通过数据流传输时,控制流处于空闲状态。而当控制流空闲很长时间后,客户端的防火墙会将其会话置为超时,这样当大量数据通过防火墙时,会产生一些问题。此时,虽然文件可以成功地传输,但因为控制会话会被防火墙断开,传输会产生一些错误。

1. FTP实现的目标

(1)促进文件的共享(计算机程序或数据)。

(2)鼓励间接或者隐式地使用远程计算机。

(3)向用户屏蔽不同主机中各种文件存储系统的细节。

(4)可靠和高效地传输数据。

2. FTP的缺点

(1)密码和文件内容都使用明文传输,可能导致不希望发生的窃听。

(2)因为必须开放一个随机的端口以建立连接,当防火墙存在时,客户端很难过滤处于主动模式下的FTP流量。这个问题通过使用被动模式的FTP得到了很大解决。

运行FTP服务的许多站点都开放匿名服务,在这种设置下,用户不需要账号就可以登录服务器,默认情况下,匿名用户的用户名是:“anonymous”。这个账号不需要密码,虽然通常要求输入用户的邮件地址作为认证密码,但这只是一些细节,此邮件地址有可能根本就不被确定,而是依赖于FTP服务器的配置情况。

3. FTP的使用模式

FTP有两种使用模式:主动模式和被动模式。

主动模式要求客户端和服务器端同时打开并且监听一个端口以建立连接。在这种情况下,客户端由于安装了防火墙会产生一些问题。所以,创立了被动模式。

被动模式只要求服务器端产生一个监听相应端口的进程,这样就可以绕过客户端安装了防火墙的问题。

4. FTP和网页浏览器

大多数最新的网页浏览器和文件管理器都能和FTP服务器建立连接。这使得在FTP上通过一个接口就可以操控远程文件,如同操控本地文件一样。这个功能通过给定一个FTP的URL实现,形如ftp://〈服务器地址〉(例如,ftp://ftp.gimp.org )。是否提供密码是可选择的,如果有密码,则形如ftp://〈login〉:〈password〉@〈ftpserveraddress〉。大部分网页浏览器要求使用被动FTP模式,然而并不是所有的FTP服务器都支持被动模式。

三、IP地址和域名

(一)IP地址基本知识

在因特网(Internet)上有成千上万台主机(host),为了区分这些主机,人们给每台主机都分配了一个专门的“地址”作为标识,称为IP地址,它就像您在网上的身份证,要查看自己IP地址可在Windows 9x的系统中单击“开始”→“运行”→输入“winipcfg”(Windows 2000/输入ipconfig)→按回车键。

IP是Internet Protocol(网际协议)的缩写。各主机间要进行信息传递必须要知道对方的IP地址。每个IP地址的长度为32位(bit),分4段,每段8位(1个字节),常用十进制数字表示,每段数字范围为1~254,段与段之间用小数点分隔。每个字节(段)也可以用十六进制或二进制数表示。每个IP地址包括两个ID(标识码),即网络ID和主机ID。同一个物理网络上的所有主机都用同一个网络ID,网络上的一个主机(工作站、服务器和路由器等)对应有一个主机ID。这样把IP地址的4个字节划分为2个部分,一部分用来标明具体的网络段,即网络ID;另一部分用来标明具体的节点,即主机ID。

1. 32位IP地址分类

(1)A类IP地址

一个A类IP地址由1字节(每个字节是8位)的网络地址和3个字节主机地址组成,网络地址的最高位必须是“0”,即第一段数字范围为1~127。每个A类地址可连接16 387 064台主机,Internet有126个A类地址。

(2)B类IP地址

一个B类IP地址由2个字节的网络地址和2个字节的主机地址组成,网络地址的最高位必须是“10”,即第一段数字范围为128~191。每个B类IP地址可连接64 516台主机,Internet有16 256个B类地址。

(3)C类IP地址

一个C类IP地址是由3个字节的网络地址和1个字节的主机地址组成,网络地址的最高位必须是“110”,即第一段数字范围为192~223。每个C类IP地址可连接254台主机,Internet有2 054 512个C类地址。

(4)D类IP地址

D类IP地址的第一个字节以“1110”开始,第一个字节的数字范围为224~239,是多点播送地址,用于多目的地信息的传输,也作为备用。全零IP地址(“0.0.0.0”)对应于当前主机,全“1”的IP地址(“255.255.255.255”)是当前子网的广播地址。

(5)E类IP地址

E类IP地址以“11110”开始,即第一段数字范围为240~254。E类IP地址保留,仅作实验和开发用。

2. 几种特殊用途的IP地址

(1)主机段(即主机)ID全部设为“0”的IP地址称之为网络地址,如129. 45. 0. 0就是B类网络地址。

(2)主机ID部分全设为“1”(即255)的IP地址称之为广播地址,如129. 45. 255.255就是B类的广播地址。

(3)网络ID不能以十进制“127”作为开头,在地址中数字127保留给诊断用。如127.1.1.1用于回路测试,同时网络ID的第一个8位组也不能全置为“0”,全置“0”表示本地网络。网络ID部分全为“0”和全部为“1”的IP地址被保留使用。

Internet IP地址的设计者也不清楚它会怎样发展。一些人设想一个Internet会是包含有许多主机的几个网。另一些人则预言Internet中会有许多的网,而每一个网上的主机并不太多,作为折中, Internet的地址是适合大网和小网的。它们被确定为32位但有三种类型。地址是自定义的,它的最高位定义地址的类型。A类地址支持多个主机在一个网:最高位为0,跟随有7bit网络部分和24bit主机部分。在B类地址,最高位是非0,跟随有14bit网络号和16bit主机号。C类地址以110开始,跟随有2lbit网络号和8bit主机号。按常规,Internet地址由加点的字符给出。地址由四部分10进制数组成,用点作分隔。例如,10. 0. 0. 51和128.10.2.1分别是A类和B类的Internet地址。

(二)域名的基本知识

由于IP地址全是数字,为了便于用户记忆,Internet上引进了域名服务系统(DNS,Domain Name System)。当您键入某个域名的时候,这个信息首先到达提供此域名解析的服务器上,再将此域名解析为相应网站的IP地址。完成这一任务的过程就称为域名解析。域名解析的过程是:当一台机器a向其域名服务器A发出域名解析请求时,如果 A可以解析,则将解析结果发给a;否则,A将向其上级域名服务器B发出解析请求,如果B能解析,则将解析结果发给a,如果 B无法解析,则将请求发给再上一级域名服务器 C,如此下去,直至解析到为止。域名简单地说就是Internet上主机的名字,它采用层次结构,每一层构成一个子域名,子域名之间用圆点隔开,自左至右分别为:计算机名、网络名、机构名、最高域名。Internet域名系统是一个树型结构。

以机构区分的最高域名原来有7个:com(商业机构)、net(网络服务机构)、gov(政府机构)、mil(军事机构)、org(非盈利性组织)、edu(教育部门)、int(国际机构)。1997年又新增7个最高级标准域名:firm(企业和公司)、store(商业企业)、web(从事与Web相关业务的实体)、arts(从事文化娱乐的实体)、rec(从事休闲娱乐业的实体)、info(从事信息服务业的实体)、nom(从事个人活动的个体、发布个人信息)。这些域名的注册服务由多家机构承担,CNNIC也有幸成为注册机构之一;按照ISO-3166标准制定的国家域名,一般由各国的NIC(Network Information Center,网络信息中心 )负责运行。

以地域区分的最高域名有:AQ(南极洲)、AR(阿根廷)、AT(奥地利)、AU(澳大利亚)、BE(比利时)、BR(巴西)、CA(加拿大)、CH(瑞士)、CN(中国)、DE(德国)、DK(丹麦)、ES(西班牙)、FI(芬兰)、FR(法国)、GR(希腊)、IE(爱尔兰)、IL(以色列)、IN(印度)、IS(冰岛)、IT(意大利)、JP(日本)、KR(韩国)、MY(马来西亚)、NL(荷兰)、NO(挪威)、NZ(新西兰)、PT(葡萄牙)、RU(俄罗斯)、SE(瑞典)、SG(新加坡)、TH(泰国)、TW(中国台湾)、UK或GB(英国)、US(美国)等。

我国域名体系分为类别域名和行政区域名两套。类别域名有六个,依照申请机构的性质依次分为:AC——科研机构;COM——工、商、金融等专业;EDU——教育机构;GOV——政府部门;NET——互联网络、接入网络的信息中心和运行中心;ORG——各种非盈利性的组织。行政区域名是按照我国的各个行政区划分的,其划分标准依照国家技术监督局发布的国家标准而定,包括“行政区域名”34个,适用于我国的各省、自治区、直辖市,分别为:BJ——北京市;SH——上海市;TJ——天津市;CQ——重庆市;HE——河北省;SX——山西省;NM——内蒙古自治区;LN——辽宁省;JL——吉林省;HL——黑龙江省;JS——江苏省;ZJ——浙江省;AH——安徽省;FJ——福建省;JX——江西省;SD——山东省;HA——河南省;HB——湖北省;HN——湖南省;GD——广东省;GX——广西壮族自治区;HI——海南省;SC——四川省;GZ——贵州省;YN——云南省;XZ——西藏自治区;SN——陕西省;GS——甘肃省;QH——青海省;NX——宁夏回族自治区;XJ——新疆维吾尔自治区;TW——台湾; HK——香港;MO——澳门。 CN域名除 edu.cn由CernNic(教育网)运行外,其他均由 CNNIC运行。

传统的域名和网址是一个技术层面上的事物,并有着严格的规定,上述几个部分组成了一个完整的“网址”(URL),有的URL中还包含了数据库、密码等内容。

四、统一资源定位符(URL)

统一资源定位符(Uniform / Universal Resource Locator,URL)也被称为网页地址,是因特网上标准的资源的地址(Address)。它最初是由蒂姆·伯纳斯·李发明用来作为万维网的地址的。现在它已经被万维网联盟编制为因特网标准RFC 1738了。

1. URL简介

统一资源定位符(URL)是用于完整地描述Internet上网页和其他资源的地址的一种标识方法。

Internet上的每一个网页都具有一个惟一的名称标识,通常称之为URL地址,这种地址可以是本地磁盘,也可以是局域网上的某一台计算机,更多的是Internet上的站点。简单地说,URL就是Web地址,俗称“网址”。

URI 方案集包含如何访问 Internet 上的资源的明确指令。

URL 是统一的,因为它们采用相同的基本语法,无论寻址哪种特定类型的资源(网页、新闻组)或描述通过哪种机制获取该资源。

对于 Internet 服务器或万维网服务器上的目标文件,可以使用“统一资源定位符(URL)”地址(该地址以“http://”开始)。Web 服务器使用“超文本传输协议(HTTP)”,它是一种“幕后的”Internet 信息传输协议,例如,“http://www.microsoft.com/”为Microsoft 网站的万维网 URL 地址。

2. URL的组成

URL的一般格式为(带方括号[]的为可选项):

protocol:// hostname[:port]/ path /[:parameters][?query]#fragment

URL由三部分组成:协议类型,主机名和路径及文件名。

(1)protocol(协议):指定使用的传输协议,通过URL可以指定的主要有以下几种:http、ftp、gopher、telnet、file等。最常用的是HTTP协议,它也是目前WWW中应用最广的协议。

(2)hostname(主机名):是指存放资源的服务器的域名系统(DNS)主机名或 IP 地址。有时,在主机名前也可以包含连接到服务器所需的用户名和密码(格式:username:password)。

(3)port(端口号):整数,可选,省略时使用方案的默认端口,各种传输协议都有默认的端口号,如http的默认端口为80。如果输入时省略,则使用默认端口号。有时候出于安全或其他考虑,可以在服务器上对端口进行重定义,即采用非标准端口号,此时,URL中就不能省略端口号这一项。

(4)path(路径):由零或多个“/”符号隔开的字符串,一般用来表示主机上的一个目录或文件地址。

(5)parameters(参数):这是用于指定特殊参数的可选项。

(6)query(查询):可选,用于给动态网页(如使用CGI、ISAPI、PHP/JSP/ASP/ASP. NET等技术制作的网页)传递参数,可有多个参数,用“&”符号隔开,每个参数的名和值用“=”符号隔开。

(7)fragment,信息片断,字符串,用于指定网络资源中的片断。例如一个网页中有多个名词解释,可使用fragment直接定位到某一名词解释。

3. URL定位标识说明

下面给出常见的URL中定位和标识的服务或文件。

◇ http:文件在Web服务器上。

◇ file:文件在您自己的局部系统或匿名服务器上。

◇ ftp:文件在FTP服务器上。

◇ gopher:文件在gopher服务器上。

◇ wais:文件在wais服务器上。

◇ news:文件在Usenet服务器上。

◇ telnet:连接到一个支持Telnet远程登录的服务器上。

4. URL转发

所谓URL转发,是通过服务器的特殊设置,将访问您当前域名的用户引导到您指定的另一个网络地址。例如,URL转发可以让用户在访问http://www.abc.com时,自动转向访问到一个您自己指定的网址“http://www.123.com”,URL转发功能是万维网提供的域名注册后的增值服务。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈