对现代企业来说,利用计算机系统来提供及时可靠的信息和服务是必不可少的;而搭建于计算机基础上的信息系统必然受到软硬件故障的影响。DFT HA是一套提供有效防止主机意外宕机而造成服务中断的软件,当一台主机宕机或无法使用时,DFT HA能及时侦测出故障并启动另一台主机中的相应程序而自动接管其服务。DFT HA监控和管理每台服务器的资源,通过管理这些资源,DFT HA能完成自动重启应用的功能。对于异常事件,DFT HA可以及时处理,应用在关键业务环节和要求不停顿的商业环境。
DFT HA双机系统的构造

DFT HA运行原理
DFT HA在两台服务器上执行,提供相互备援保护检测程序(HA Daemon)。如果任一台服务器上的服务被不正常中止,DFT HA将自动启动连接被中止服务,此过程不需要人为操作介入,这种防错功能可确保重要的服务不被中断。
规划DFT HA时两台服务器的硬件配置不需要完全相同,重要的操作服务可分散在两台主机上以提高工作效率,但必须保证其中任何一台服务器能够负荷分布在两台服务器上的所有服务,从而不会发生切换时导致系统瘫痪。例如一台主机负责Internet 应用而另一台主机负责数据库服务,在Internet应用服务器无法提供服务时数据库服务器将自动启动本机的相关Internet服务,客户端的用户将自动启动本机上的相关Internet服务,客户端的用户将自动被从新定位至备援主机上,不会因为单机的故障导致服务中断。
在两台主机间架设专用私有网络提供HA服务的心跳(heartbeat)侦测,可同时采用Ethernet和RS-232专用连接通道以防止单一故障,一旦其中一台专用通道断线时HA软件可通过另外的通道传输服务器心跳以提供相互连接。即使所有的私有网都断线,HA软件仍然可以通过公有网侦测传递两台服务器的心跳信息。
依靠冗余的私有网的硬件基础,DFT HA软件调用NT Cluster Moniter服务检测主机、网卡、共享磁盘以及加入Cluster服务的资源的工作状态,发现故障时会首先做本地故障排除,DFT HA将依照事先定义的次数重新启动该项服务若干次,如果此服务仍然无法重新被重启,此服务将会立即切换至另一台主机执行。
一旦工作主机故障而由备援主机接替后,备援主机将成为新的工作主机,当原主机故障排除后并重新启动后将自动成为对方之备援主机,或者系统管理员可以手工操作方式将服务从备援主机(此时已是工作主机)切换至原主机上执行,如果系统管理员事先在DFT HA设定选项中设定为自动恢复(Ato Switch-back),则此恢复工作将自动执行无需人为干涉。
功能特性
● 开放性:支持多种草系统和流行的数据库软件,以及其他的主流应用
● 快速的反映速度:典型的错误检测时间是5秒,服务转移时间一般在20?40秒之间。
● 自动处理过程:错误检测和服务转移过程完全由DFT HA软件自动处理,不需要系统管理员干预。
● 图形用户界面:DFT HA软件以Java Applet 的形式提供,系统管理者通过交互式界面来配置HA,并且该界面实时的显示无主机系统及服务状态。
● 灵活性:用户可指定每台服务器的作用(active or standby),指定要监控的服务和硬件部分,定义指定的服务发生故障后要采取的进一步行动(如是否重新启动该服务,允许的最动启动时间)。
● 可扩充性:用户可通过增加服务来进一步提高系统的可用性。
● 丰富的附加功能:提供不同的针对特定应用的Agent程序,使服务监控更切实际,更加有效;提供用于开发Agent程序的应用程序界面(API),使用者可针对特定的服务编写执行状态诊断及错误恢复工作的Agent程序。