首页 百科知识 网络可靠性设计

网络可靠性设计

时间:2022-10-16 百科知识 版权反馈
【摘要】:计算机网络的可靠性主要指系统的容错能力,即当网络系统发生故障时,系统能够继续工作及迅速恢复的能力。提高网络系统可靠性和容错能力的手段,除了保证系统本身的质量外,主要是设计冗余部件,即构建系统的备份体系。在磁盘镜像技术中,主机把所有数据同时存储到两个同样大小的自由磁盘空间上,这两份数据构成镜像关系。这样在磁盘镜像的一半发生错误时,另一半仍可保证系统继续工作。

7.3.5 网络可靠性设计

计算机网络的可靠性主要指系统的容错能力,即当网络系统发生故障时,系统能够继续工作及迅速恢复的能力。在一些重要场合的网络系统,如国防、交通、金融证券等部门,会对系统的可靠性提出很高的要求,如长时间不中断地运行,系统即使发生故障也能继续运行等。在一般的具有一定规模的网络系统中,也应要求网络的核心层和关键设备具有一定的可靠性,使得整个网络系统能够平稳地运行。因此在设计网络系统时有必要考虑系统的容错能力和可靠性。

提高网络系统可靠性和容错能力的手段,除了保证系统本身的质量外,主要是设计冗余部件,即构建系统的备份体系。备份体系包括运行环境备份、业务数据备份、备份策略和恢复方案。运行环境和业务数据的完整备份,再加上周密的恢复方案可使系统在出现故障后迅速恢复,而这一切又依赖于良好的备份策略和严格的日常管理。好的备份策略应该做到易操作和数据完整,而且对主业务没有太多的影响。

1.硬件容错

硬件容错措施有设备热备份、模块热备份、磁盘镜像和磁盘阵列等。

设备热备份指采用设备冗余来保证在一台设备发生故障时另一台设备能接管故障设备的工作。设备可以是计算机、服务器,也可以是网络设备:路由器、交换机等。两台设备通过专用网络线路相连。正常情况下,两台设备根据网络系统的配置各自完成自己的任务,并互为备份机,在运行时同时交换各自的运行数据。当某台设备发生故障时,该设备的控制权将切换到备份设备。备份设备此时除了完成自己的任务外,还要接管故障设备的环境和数据,处理故障设备原来承担的任务和数据。故障设备修复后,设备控制权需再切换回到该设备上,使系统恢复正常冗余工作模式。这种备份关系也可以扩展到多台计算机之间,构成所谓的计算机“簇”。

模块热备份技术以设备内的硬件模块为单位进行热备份,冗余硬件在系统正常运行的绝大多数时间内不作任何工作,仅仅处于所谓的热备份状态。一旦系统发生故障,冗余部件就会接管有故障的部件,维持系统继续正常运行。最常见的冗余硬件有服务器中的网卡、磁盘,网络设备中的端口模块、电源模块等。

网卡冗余技术是在服务器和交换机之间建立冗余连接,即在服务器上安装两块网卡,一块为主网卡,另一块作为备用网卡,然后用两根网线将两块网卡都连到交换机上。在服务器和交换机之间建立主连接和备用连接。一旦主连接断开,备用连接会在几秒钟内自动顶替主连接的工作,通常网络用户不会觉察到任何变化,同时也不会对服务器操作系统造成压力。网卡冗余技术在服务器和网络之间建立的冗余连接包括冗余网卡、网线、集线器或交换机端口。

磁盘冗余技术可分成两种:磁盘镜像和磁盘阵列。在磁盘镜像技术中,主机把所有数据同时存储到两个同样大小的自由磁盘空间上,这两份数据构成镜像关系。它是通过每次往磁盘写入数据时,数据被复制后同时写入镜像另一半的自由空间上而实现的。这样在磁盘镜像的一半发生错误时,另一半仍可保证系统继续工作。

磁盘阵列技术将小容量、廉价的驱动器组合在一起,使它们对系统表现为一个单一磁盘驱动器,通过数据冗余提高安全性保护。典型的工作原理是:每次向磁盘写数据时,数据写在阵列中的所有磁盘上,同时数据的校验信息也写到所有的磁盘。这样,如果阵列中的一个磁盘发生了故障,该盘上的数据可以根据其他盘上的校验信息进行恢复。磁盘镜像与磁盘阵列不同的地方在于磁盘阵列可以防止多个硬盘出现故障,而磁盘镜像只能防止单个硬盘的物理损坏。两台计算机互为备份时可共享磁盘阵列系统。这时以双主机加共享的磁盘阵列柜构成双机容错方案,磁盘柜通过SCSI线连接到两台主机上,能同时被两个系统——主系统和备份系统访问。共享磁盘柜存放关键数据,正常运行时它的控制权在主系统上。当主系统发生故障后,控制权就切换到备份系统,备份系统成为主系统。原来的主系统修复后变成备份系统,实现主备角色互换,双机系统进入正常冗余工作模式。双机共享磁盘阵列系统具有更完备的硬件容错能力。

2.软件容错

软件容错技术一般用在服务器中,其特点是能有效地避免来自服务器、交换机、电源、磁盘和网卡等设备和部件故障所造成的停机、业务中断和数据丢失等重大损失,可保证系统的在线热切换,提供失效切换后的重新恢复资源能力。

具有容错能力的软件采用了以下的特殊运行方式:

● 通过软件锁定机制来管理共享磁盘上的数据,以防止多个服务器在同一时间内访问数据。它能够自动在被应用程序定义为共享资源的磁盘卷上设置锁定。当被保护的应用程序由一个服务器移动/转换到另一个服务器时,可以控制这些锁定,以保证激活服务器对磁盘共享卷的访问。

● 在快速检查和深入检查时执行预先定义行为的机制,用以察看资源本身是否失效。如果检查工作在局部范围内失败,系统将尝试局部恢复资源。如果尝试失败,系统将向其他服务器进行失效切换,否则就不进行失效切换。

● 指定主要的服务器失败时,重新恢复的操作。在发生故障的服务器正常运行时,恢复操作可以把被失效切换的程序都切换回到该服务器上;也可以把被失效切换的程序留在它们被失效切换到的服务器上,等待管理员决定何时再进行切换。

3.网络结构和线路容错

要实现网络的可靠性,网络主干的拓扑结构应考虑容错能力,采用冗余技术,包括交换机设备的冗余、交换机之间链路的冗余和服务器通信通道的冗余。图7-2是一个带有冗余交换机和链路的网络结构。

在图7-2中,网络采用了2台CISCO公司的Catalyst4912G作为网络的核心层,实现设备冗余。交换机之间采用Cisco千兆位带宽聚合(GEC)技术相连,提供4Gbps的无阻塞通道。两交换机间既互为备份,又可均衡负载,从而保证了核心层的任一台交换机出现故障都不会影响网络的运行。

img160

图7-2 冗余网络拓扑

在4台Catalyst6000交换机上配置一个双端口千兆位上连模块,并使用两条千兆位线路分别上连到2台中心千兆位交换机Catalyst4912G,建立两条逻辑链路。通过配置生成树的参数,指定一条链路为主链路,另外一条千兆位链路将自动成为备份链路,实现链路冗余。这样,当主链路或主链路所连的千兆位交换机失败时,Catalyst6000将自动启用备份链路,并通过另一台千兆位交换机访问服务器。

服务器是网络应用的核心,即使所建网络的结构达到相当高的可靠程度,如果服务器采用一条线路接入,网络依然会出现单点故障,对用户来说依然没有可靠性可言。解决方法是在服务器上安装两块千兆位服务器网卡,分别连接两台千兆位交换机,利用网卡容错技术实现两块网卡间的容错。当主网卡或该网卡所连的交换机发生故障时,服务器会立刻将该网卡上的流量转移到备份网卡上。

通过以上3个方面,可以看到该方案能够做到任何一台中心交换机的故障不会导致整个网络瘫痪,并提供最快速的故障恢复方案,保证了网络的可靠性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈