多路芯发展之AMD——多核心低能耗-DOIT-数据产业媒体与服务平台

DOSERV服务器在线 6月14日原创报道：谈到AMD的多路服务器芯片，我们就不得不提到他们的皓龙6000系列平台，AMD将自身的芯片产品按照企业需求划分成了两个平台，即皓龙6000平台和皓龙4000系列芯片平台。其中6000系列平台主要面向的是双路及四路以上的服务器产品，也是我们今天主要讨论的对象。

去年四月份，AMD正式发布了研发代号为马尔库尼的8核心和12核心的x86处理器，面向双路和四路服务器市场，能够满足企业和主流计算苛刻的数据密集型工作负载，并具有先进的虚拟化和能源效率的特点。其芯片发展规划可详见下图：

2010年AMD整合平台之后推出的马尔库尼芯片，是第一批皓龙6000平台的芯片产品，今年还会升级到16核/12核的“英特拉格斯”(Interlagos)，采用更先进的32nm制造工艺和全新的“推土机”(Bulldozer)架构，仍使用Socket G34封装接口，保持平台的一致性和通用性。

该系列芯片主要面向主流的双路和高附加值四路服务器市场，其采用了45nm工艺，与上一代的“Istanbul”相同，具有8核心和12核心的版本，核心数量相比上代增加一倍。缓存容量加倍，集成了12MB L3缓存，比“Istanbul”多一倍。而且，8/12核心的皓龙6000提供了强大的浮点运算能力，更为适合高性能计算环境。

从目前来看，AMD主要销售的皓龙6000芯片有着以下几个技术关键点，因而可以应对多路服务器用户的需求，以求完成用户在关键业务上的应用。

*每插槽6个核心为虚拟化、数据库和Web服务等多线程环境提供了更高的性能和每瓦性能（与以前各代产品相比）*超传输技术辅助（HT辅助）降低了处理器之间的缓存探查（cache probe）流量，可加快4路和8路服务器查询的速度，提高数据库、虚拟化等缓存敏感型应用和计算密集型应用的性能。

*超传输3.0 技术(HT3)将相互连接的速度从HT1的2GT/秒，提高到HT3的最高4.8GT/秒，有助于提高整个系统的平衡和可扩展性，支持高性能计算机（HPC）、数据库和Web服务等计算环境的扩展。

*AMD-P电源管理特性套件特性 AMD皓龙处理器包含了全套AMD-P电源管理特性，其中包括AMD PowerNow技术、 AMD CoolCore技术以及双动态电源管理™，这些创新有助于降低能耗和成本，使得基于AMD皓龙™处理器的服务器无论在任何地方都能跻身“最环保”的产品之列。

* AMD-Vi 支持I/O级的虚拟化，可为虚拟机（VM）提供对设备的直接控制（需要SR5690/SR5670芯片组）。该技术通过将设备直接分配给客户操作系统，提高性能，并可改善隔离能力，提高虚拟机的安全性。

另外，根据当时AMD发布马尔库尼芯片时所发表的资料来看，该芯片在功效节省方面有着出色的表现：

在下图中，我们可以看出全新的马尔库尼虽然相比前代产品增加了核心数量，但是在能效上却与之前的功耗保持不变甚至更低，这些都得益于AMD在CPU电源节能上的先进技术。

详解过AMD皓龙6000系列芯片的第一代产品后，我们来看下AMD即将在今年年底正式发布的“Bulldozer（推土机）”处理器架构的一些情况。该架构将采用32nm SOI 制程工艺，全面取代现有的45nm芯片制程，定位于高性能PC和服务器市场。

?该架构将两个整数单元与一个共享的浮点运算单元相结合，加大了整体浮点运算的速度。

?该图展示了双线程的工作原理，其整数单元独立在外，可以更好的完成多线程任务。

?推土机芯片架构的资源共享结构，同时保证两个整数运算单元的前提下，加入的浮点运算单元则与解码等操作进行资源共享，而且还加入了动态切换共享与专用组件的功能，可以令芯片根据任务的不同，来使用资源。

?另外，在年初的“推土机”芯片的预展介绍中，我们获得了更加详细的技术细节。

在Bulldozer模块中为起到提高核密度的目的，AMD把某些组件进行共享，而为了保持甚至是提高性能，把另外一部分保持分离。共享部分包括获取解码并在浮点运算排成器、二级缓存方面共享，这样使得晶圆尺寸更小，从而容纳更多核。在整个架构中，为避免产生瓶颈，仍然维持整数预算调度器的独立性。

推土机的新功能——全核心加速技术

根据年初发布会中，AMD服务器产品市场总监John Fruehe先生介绍称：“Turbo Core主要是指对于一些没有完全消耗到最大程度的工作负载，去加快时钟速度。在多种不同工作负载上，使用了Turbo Core可以最大增加500兆赫兹的性能。最重要的一点，Turbo Core加速指的是所有核的加速，和有些核加速技术明显不同，以往的核加速技术可能需要关闭一些核，只对部分核进行加速。采用Turbo Core技术，最多可以使所有核增速500兆赫兹，如果再关闭一些核运转的情况下，加速将会超过500兆赫兹。同时我们还对内存控制器进行了进一步优化，从而提高内存的吞吐量。8年前AMD首家推出集成内存控制器，根据AMD在这一领域的经验和非常好的技术，我们又在这一代产品中全面提升了内存控制器的性能。首先我们对内存控制器在效率方面进行了针对性的重新设计和完善，因此实现30%的内存性能提升。在提升30%性能基础上，我们让内存支持1600兆，所以可以获得额外20%的性能。两项加起来，可以实现内存控制器50%吞吐量提升。”

Turbo Core技术介绍

除了每个核心独享4个整数计算管线，在浮点运算上，“推土机”采用了“FlexFP”技术，两个核心共享一个浮点调度器和两个128位FMAC乘法累加器，可以进行组合，每个时钟周期可以完成两次64位双精度计算或4次32位单精度计算。如果一个核心没有进行浮点运算，那么另一个核心可以占用这两个128位的FMAC，在一个时钟周期完成4次双精度运算或8次单精度计算，AMD将其命名为 AVX模式。这种技术保证了“推土机”的浮点运算能力，在高性能计算中并不会因为“共享”而牺牲性能。

多路芯发展之AMD——多核心低能耗

zhabin

相关推荐

近期文章

热门标签