异构计算，如何让开源有更开放的生态?

ICT技术发展到今天，面临这样一种矛盾：一方面，人工智能、5G、HPC、边缘计算等新业务逐渐落地实用，对算力性能提出极高要求；另一方面，摩尔定律逐渐失效，通用计算越来越不能满足这些业务的算力需求。

在这样的背景下，算力的发展重心正在从传统的冯·诺依曼架构为代表的通用计算向以域专有架构（Domain Specific Architecture）为代表的异构计算转移。

域专有架构主要有以下几个特点：一是它由许多简单单元组成。不同于以往通用计算的CPU单核单带或者是多核的组成，域专有架构通常有多个DIE，每个DIE专用于执行一种功能。第二个特性就是更少的数据移动。为了达到这一特性，从硬件设计层面，就会优化计算单元跟存储单元之间的物理位置以及访问协议设置。第三，能效比更高的专用硬件。针对特定的业务场景采用专用硬件，很好地提供能效比。第四，新的指令集或像MindSpore这类的新编程范式。

在域专有架构下，越来越多的GPU、FPGA、ASIC、SoC等异构计算硬件被使用，但在云计算普遍普及的产业背景下，如何才能更好地管理这些异构计算设备，使之更好地释放算力呢？

异构计算相关的开源项目，正在帮助我们解决这个问题。

在华为开发者大会2020（Cloud）期间，OpenStack Cyborg 项目发起人、华为计算产品线开源生态部主任工程师黄之鹏，通过对最新开源项目的解读，带来了异构计算的最新发展趋势。

OpenStack的Cyborg 异构硬件加速框架

如果市场上每出现一种硬件，就去增加一种专用支持，就会形成“烟囱式”管理，这种方法虽然也能胜任商业交付，但是因为过于来碎片化，会为日后的发展埋下隐患。

为此，开源管理平台OpenStack早在2017年异构计算刚刚开始发展时，就提出了Cyborg项目，面向GPU、FPGA、AI处理器等不同异构计算硬件和软件加速资源，提供具有标准API的通用管理框架。

Cyborg的主要功能包括硬件资源的发现、资源上报、资源的管理，Cyborg还能完成FPGA编程等特殊硬件的特殊功能或配置。

Cyborg已经交付了至少4~5个版本，采用OpenStack组件中常用的架构设计，分为控制层和计算节点层，以分离管理面与数据面，并在管理面设计了统一的API。

Cyborg-api、Cyborg-conductor、Cyborg-agent是Cyborg的3个主要服务，Cyborg-api主要用于提供API接口，Cyborg-conductor主要用来缓冲和路由api与agent数据库的操作，Cyborg-agent主要用来对接各种异构计算硬件，Cyborg-client主要调用cyborg-api，最终对用户提供命令行。

Cyborg项目自2017年9月成为OpenStack 社区官方项目后，生态进展迅速，已成长为加速设备管理的事实标准，服务于NFV、HPC、边缘计算、AI/DL等多个场景。

开源是催生开发者生态非常重要的一环，至今Cyborg已经吸引了来自Intel、联想、ARM、Redhat、科大讯飞、中移动、银联等公司或机构的开发者参与。

Cyborg的技术实现

在通用计算主导的云计算时代，通过虚拟化、容器化，实现了物理资源池的资源复用，进而以多租户的方式开放出去，形成公有云服务或私有云服务。

在异构计算时代，为了实现虚拟化和容器化，同样需要异构资源的分层抽象，所以Cyborg项目定义了一套面向异构计算设备的抽象设备模型：

第一层是Device，对应物理意义上的卡，如各类加速卡；

在Device的层级之上，是PF(Physical Function)，比如FPGA上会有多个区域（Region），每一个区域可能就是一个PF；

在PF之上，可以抽象出VF（Virtual Function），很多异构硬件支持在PF的基础上进一步提供VF的能力。

下面以两个例子来说明Cyborg的技术实现。

设备发现：在一个有2个FPGA资源、1个的NPU资源的计算节点上，通过PCIE上电的设备，信息被Cyborg Driver上报到Compute计算节点的 Agent上面，Agent主要做两个动作，一是写入到DB，另外一个是写入到Placement，Placement是OpenStack近几个版本才出现的新组件，起到计数器的作用，会统计所有的计算存储网络以及异构资源的总数量，以便在Schedule调度的时候实现全局视图。

Nova-Cyborg交互：Nova是OpenStack里非常重要的管理组件，这里来看一下Cyborg怎样和Nova实现交互。

第1步，管理员或运营者（Operator）把要使用的硬件的驱动配置进Cyborg的Config中。

第2步，定义一个Device Profiles，和OpenStack的通用资源定义一样，通过Flavor描述资源的规格。

第3步，管理员把设定的Device Profiles关联到Flavor上面。

管理员通过Cyborg Api完成了这些工作之后，用户就可以去申请这个实例了。

用户使用OpenStack的命令行或者按钮申请一个Flavor，Flavor会加上 Device Profiles的描述，之后启动调度器去Placement查询，如果有符合用户请求的资源，云平台就可以返回用户所需要的实例了。

通过组件间的调用关系图示，可以看到Nova和Cyborg之间的Device Profiles的设置、Nova和Placement关于Allocation之间的交互，以及当创建实例时的Post accelerator request等，整体的工作流比较清晰，而且尽可能复用了OpenStack的Nova的工作机制，实现对异构资源的管理。

Kubernetes以及其他社区的异构计算开源项目

Kubernetes（K8s）社区是谷歌开源出来的容器管理平台，K8s同样存在异构计算的支持的问题。因为K8s出现的比较晚，对GPU这类异构设备的支持排在很高的优先级，很快就实现了Device Plug Interface(DPI)的机制。