中国数字经济资讯与服务平台

为什么用十台OCP服务器支撑百万并发值得关注?

清华大学交叉信息学院的OCP(开放计算项目)实验室是中国唯一的一座OCP认证的实验室,清华校园蒙民伟科技大楼的地下二层放着几十台Facebook捐赠的OCP服务器,这里有中国仅有的几十台Facebook服务器,为什么这几十台服务器是稀罕物件呢?

其实,熟悉数据中心基础设施的朋友对OCP并不陌生,因为OCP挖的是传统基础设施供应商的墙脚,这几年OCP搞的风生水起,最近谷歌又贡献48V的机架供电技术加入OCP的大社区,总之OCP设备是国外许多超大规模数据中心用户的心头好,这是国外明星巨头的东西,然而在中国只有这几十台!

十台OCP如何承载百万HTTP并发?

不过今天要说的不是这几台机器,而是在这几十台服务器上进行的一次百万并发压力测试,具体说是部署了数人云操作系统DCOS的十台OCP机器承载了百万HTTP并发请求。

据了解,数人云DCOS(数据中心操作系统)提供了整个压测环境的安装部署和运行,使用了包括压测工具Tsung、负载均衡器HAProxy、Web服务器NginX等,架构图是这样的:

9999

Tsung是开源的多协议分布式负载测试工具,可以支持HTTP, WebDAV, SOAP, PostgreSQL, MySQL, LDAP等多种协议,数人云运维负责人庞铮介绍说,Tsung在一台40核CPU(超线程)加140G内存的OCP服务器上可以模拟5万用户并发HTTP请求,这里把Tsung部署在二十台服务器上,还有一台做控制器,总共21台服务器,由这21台服务器来模拟每秒一百万用户并发HTTP请求,也就是模拟用户端的操作,比如秒杀,抢购之类的大量用户访问引起的高并发场景。

HAProxy是一款高性能的TCP/HTTP负载均衡器,这里把它装在4台服务器上,庞铮介绍说,因为阿里的百万并发也是用4台负载均衡服务器做转发,所以这里也用了4台服务器。4台负载均衡器负责把用户请求分发到6台NginX服务器上,这十台服务器承载了每秒百万HTTP请求。
图片 1

横坐标代表时间以秒为单位,纵坐标为模拟出的用户数

图片 2

横坐标代表时间以秒为单位,纵坐标为QPS(每秒处理的HTTP请求数量)

(点击链接 http://qinghua.dataman-inc.com/report.html 可以看到压测报告的详细内容)。

为什么要做这次测试呢?

数人云作为一个软件创业公司,做百万并发压测实验自然了为了体现其DCOS产品的特性,笔者注意到数人云的官网上展示了高并发场景化的SaaS解决方案。

数人云DCOS的核心有两个:一个是Docker:Docker容器技术的优势在此凸显,Docker把应用程序和依赖环境都封装在一起,使得应用程序的可移植性大大提高,非常便于迁移和扩展,这次测试中的加压端Tsung、转发端HAProxy和被压端NginX都是封装在容器中的。

另外一个是开源的Apache Mesos,Mesos是一种支持多种计算框架(Frameworks)共享集群计算资源的平台,诸如Hadoop、Spark等,Mesos可以按需给应用分配计算资源并大幅提高集群资源占用率。Docker可移植性加上Mesos的集群管理能力带来的便利在测试中彰显无遗:

首先,该系统部署的速度非常快,庞铮介绍说,整个部署过程仅需两个小时,这是因为以前的许多安装需要安装复杂的依赖(Depedency)环境,而Docker技术很好地解决了这一问题。

另外就是资源调度能力,Mesos对集群资源进行统一管理,为各种不同应用按需灵活分配资源,当某一项应用需要的资源变多的时候,数人云DCOS可以为之分配更多的计算资源,反之某一项应用需要的资源减少时数人云DCOS可以回收空闲的资源。

再者,当服务器出现故障的时候,数人云DCOS可以实现故障的应用自动迁移,把受服务器故障影响失效的应用自动迁移到其他可用的服务器上,这样一来,集群不会因为几台服务器的故障而影响业务的运行。

以上几个方面对数据中心运行人员来讲可以说是梦寐以求的状态,极大提升了数据中心的运维管理效率,这也是数人云DCOS的目标。

十台服务器一百万并发算什么水平?

真实的环境因为服务器配置的不同,很多比较是不公平的,而且这次用的还是OCP的机器,不是标准化的硬件,很难用一个具体的数字来描述十台服务器一百万并发是什么水平,笔者也没找到权威的数据报告,不过一位专家也表示大体上是不错的水平。

既然暂时不能用技术参数来量化,我们可以用经济的角度来衡量一下这套测试系统的价值。庞铮介绍说,压力测试加压模拟百万用户的操作访问是一个困难的过程,一家专门做压测的公司对百万并发的收费是每小时每一个用户需要支付五毛钱,也就是说,这套测试系统本身已经有不错的市场价值了。

为什么在这次测试值得关注呢?

数人云CEO王璞有感于谷歌的数据中心管理——几乎一个人可以管理上万台机器,所以想把这些管理理念带到中国,于是决心利用开源软件技术,全面实现软件定义数据中心,打造DCOS,这是王璞创业的初衷。

“开源的硬件加上开源的软件打造的百万并发的系统” ——其实拿OCP服务器做测试有附加的宣传价值,可以引起数据中心用户的关注,虽然BAT能完成高并发,但是他们不针对企业级客户提供服务,而数人云为有高并发需求的企业级客户提供了一套非常精简高效的解决方案,这是这次测试所展示的商业价值。

除此之外,用开源的软硬件系统打造的数据中心解决方案对开源社区有很大鼓舞作用,未来,完全标准开放的数据中心软硬件解决方案不是梦想。

这次测试得到了清华大学交叉信息研究院助理院长徐葳博士的很大帮助。据了解,2015年9月开始,数人云和徐葳博士合作在OCP实验室开展数据中心方面的相关研究工作,数人云CEO王璞和徐葳博士都曾在谷歌工作,徐博士回清华任教大约一年后于2015年中得到了Facebook捐赠的OCP服务器。

徐博士本行是做数据中心自动化管理运维的,包括制冷、供电、网络,以及应用的调试和监控等,如今他专注在分布式系统方面的研究。徐博士认为数据中心要做的事情还有很多,OCP搭建的数据中心降低了采购成本、运营成本和人力资源成本,有许多积极的意义。他表示希望出现一系列高性能的分布式应用解决方案,解决高并发、低延迟这类应用,希望数人云这样的企业能够进入这个市场。

 

未经允许不得转载:DOIT » 为什么用十台OCP服务器支撑百万并发值得关注?
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!