初窥华为一小步 新Tecal服务器锐意创新
刘禹 发表于:12年03月26日 14:41 [转载] 比特网
Linpack测试
之后我们进行了Linpack测试用来体现E5的AVX指令集对于浮点性能的巨大提升。测试环境为红帽的RHEL6.1,2.6.32内核,支持AVX指令集。处理器则是双路8核16线程主频为2.0GHz可Turbo到2.4GHz具有20MB三级缓存的E5-2650工程样片。测试中关闭超线程,根据系统内存容量我们选择了N=89000的运算阶数(测试过程中运算没有用到虚拟内存)。在计算点数以及计算次数方面,我们指定为1,没有进行调优。
Linpack在国际上已经成为最流行的用于测试高性能计算机系统浮点性能的benchmark。通过利用高性能计算机,用高斯消元法求解一元N次稠密线性代数方程组的测试,评价高性能计算机的浮点性能。
HPL是针对现代并行计算机提出的测试方式。用户在不修改任意测试程序的基础上,可以调节问题规模大小N(矩阵大小)、使用到的CPU数目、使用各种优化方法等来执行该测试程序,以获取最佳的性能。HPL采用高斯消元法求解线性方程组。当求解问题规模为N时,浮点运算次数为(2/3 * N^3-2*N^2)。因此,只要给出问题规模N,测得系统计算时间T,峰值=计算量(2/3 * N^3-2*N^2)/计算时间T,测试结果以浮点运算每秒(Flops)给出。
由于在计算的过程中,会分配、占有一定的内存空间,因此依据内存容量合适的设置N的数值,会得到较为准确的计算性能数据。如果N设置较小,内存不能充分利用,则处理能力不能发挥;如果N设置较大,内存空间不能满足需求,则需要经常的执行硬盘读写,从而会有处理器的等待时间,计算时间会延长,测试得到计算性能结果也会受到影响。
CPU相关信息 支持AVX指令集
我们也在现场测试了华为上一代基于英特尔5600系列的产品,对比发现新一代的华为Tecal V2服务器的浮点计算性能得到了大幅度提升,接近两倍。
理论浮点峰值是该计算机理论上能达到的每秒钟能完成浮点计算最大次数,它主要是由CPU的主频决定的,理论浮点峰值=CPU主频×CPU每个时钟周期执行浮点运算的次数×系统中CPU核心数目。
在本次测试中的理论浮点峰值=2.4GHz*8*16=307.2GFLOPS
而实际测试数据为279.6097GFLOPS。约为理论峰值的91%。
实测浮点峰值是指Linpack测试值,也就是说在这台机器上运行Linpack测试程序,通过各种调优方法得到的最优的测试结果。实际上在实际程序运行过程中,几乎不可能达到实测浮点峰值,更不用说达到理论浮点峰值了。这两个值只是作为衡量机器性能的一个指标,用来表明机器处理能力的一个标尺和潜能的度量。