剖析高性能计算中心的灾难恢复方案

自从9.11之后，各种类型的机构和组织都在谈论着、努力研究和实施着多种灾难恢复方案，其实在9.11之前许多存储了关键数据的备份中心都已经实施了各种方案，从而管理人员可以在晚上美美地睡上一觉，因为他们都知道公司是可以从灾难中恢复过来的。

不过为高性能计算（HPC）中心提供灾难恢复方案往往不同于为家庭、小办公室、大办公室，甚或跨国公司提供灾难恢复方案。HPC中心的磁带上一般都存储了数千TB以上的数据并且受到HSM（分级存储管理）体系的控制，因而不能使用镜像RAID，所以现在的问题就是：对于那些不能使用镜像RAID硬件却拥有巨大磁带库的HPC中心，你如何进行灾难恢复呢？

结论

大型HPC中心利用HSM进行灾难恢复的问题并不容易解决，20世纪90年代早期和中期有一句关于RAID的名言：迅速、便宜还是可靠--三选二。这句话同样适用于今天的灾难恢复方案：灾难恢复要简单、便宜还是轻松--三选二。时间荏苒，随着RAID技术的发展，我相信这种情况一定会改变，但是现在你只有做艰难的选择和折衷了。

任何灾难恢复方案中最关键的部分就是，要清晰地了解目前正在使用（或者考虑）的HSM特性。不同的厂商推出不同的功能，从而支配了你的某些选择，这些选择同时成为一个巨大的陷阱：如果你针对具体的HSM开发灾难恢复方案，那么从这个HSM向别处迁移将困难重重，不论是转移数据还是必须设计新的灾难恢复方案。

你必须确保HSM能够同时满足你今天和未来的需要，也就是你必须了解HSM厂商在硬软件支持、特点、性能和可伸缩性等方面的规划，还要确定他们的计划适应你的计划。从一个HSM厂商迁移至另一个是极其困难的，而且有可能成为你最可怕的梦魇。

本文来源于DOIT传媒，文章内容仅供参考，不构成投资建议。