中石油赖能和:数智时代新型IT基础设施建设实践与探索

5月26日,由百易传媒(DOIT)主办的“2023数据基础设施技术峰会”在苏州中茵皇冠假日酒店举行。大会以“加速数据创新,赋能数智未来”为主题,邀请大数据、云计算、数据存储以及AIGC产业技术专家、行业用户等代表分享最前沿的思考和实践经验,吸引线上线下逾6000余人参加。

本次峰会聚焦洞察AIGC、大数据、数据存储等相关前沿技术,分享能源、制造、教育、金融、通信等行业用户数字化转型实践、沉浸式体验领先的数据基础设施展品,与行业领袖零距离互动交流。

中石油东方物探数据中心原总工程师、教授级高级工程师赖能和

当天下午,中石油东方物探数据中心原总工程师、教授级高级工程师赖能和在“数据创新应用论坛”上发表了题为“数智时代新型基础设施建设实践与探索”的演讲,结合石油勘探领域的应用,讲述了IT基础设施的基本现状、大模型对新型IT基础设施带来的新挑战等情况。

本文根据演讲速记整理,未经本人审定。

赖能和:各位来宾,下午好!

我今天跟大家分享的是“数智时代新型IT基础设施建设实践与探索”

想这个名字我想了很久,后面我讲为什么想很久。

非常感谢DOIT搭的这个平台,来美丽的金鸡湖畔交流基础设施的建设,也感谢在座的各位花时间一块听分享。

我一直在中石油做高性能计算,做人工智能,做存储、云计算、大数据,做数据中心基础设施,一说基础设施,大家想到的是CPU、GPU、网络、UPS、空调、综合布线基础设施。我题目不加“IT”行不行?不行,如果不加IT和国家的基础设施、新基建又不一样了,所以一定要加“IT”。

在分享之前,讲几张PPT告诉大家什么叫油气勘探。

油气勘探与数字化

很多人不知道油气勘探,南方人知道的更少,因为找石油的基本都是在北方。什么叫油气勘探?油气勘探就是找石油的,找出来以后给油田,我们只负责找。怎么找?很难的。油气勘探的产业链很长,36000人做油气勘探,有勘探、开发、炼化、新能源、销售、新材料、资本,还有金融资本。

现在很火的新能源、新材料,大家都在转型,图上黄色的都是转型过来的,新能源、新材料,加油站是下游。

我们是干什么呢?第一个环节,找油。这是一个产业链非常长、技术密集型、设备密集型、专业密集型的行业,仅勘探就有12个专业,计算机都排到最后,前面还有测量、地质、地储物理。

怎么做油气勘探?油气勘探有三个环节,第一就是采数据,以前大家听说过挖个坑放炸药,波就往底下传,遇到水、油、气、沙,就会往回,会把信号传上来,就是数据采集。有多少个接收点,以前就是24个接收点,现在有十几万个接收点,数据量非常大。我们有100多个队伍,所以每天的数据非常多,这是陆上挖坑。

现在不允许挖坑了,有特种车辆,很古怪的车,非常大,高频率地上震动,波就往下传,然后返回来,就得回来数据采集。

采集完数据以后,我怎么知道地下有油呢?就需要强大的计算机,我们国家最先进的计算机就是用在石油和军工,在70年代、80年代,包括我们的银河1、银河2都是在这方面用,这是国家的能源安全,找石油的第二个环节就是高性能计算机。我自己负责的数据中心大概有3万多个节点,几百P的存储,不停地运作。

从高性能计算做完以后怎么办?谁也看不懂,那就找“老中医”,他可以看出哪里有油,哪里有气,就做成PPT上右边的那个图,然后给油田确定打井,好几千万一口井,所以很慎重。有人说找油不是很容易吗?为什么那么贵呢?我跟大家讲,找到以后打井下去成功率也不到40%,前面花的精力都白搭了,所以确定哪里打井的时候非常慎重,所以现在反过来说要把前面的数据整理好,采集的数据准,处理的数据要准,还要把老资料、老信息结合起来,要综合分析。

简单来说,就是给地球的地表做CT,

CT数据量非常大,这就是油气勘探。

整个石油勘探的线非常长,比如说勘探第一个环节,有钻井、测井、压裂,不是光打一个地方,周边的地方要压裂,把油都流到这里来,还有采油工程,然后把油气收起来,每一个都是非常巨大的工程,技术含量非常高,数字化程度也非常高。

油气勘探发展五、六十年,跟过去有什么区别呢?有五方面:一是现在找油更难找了,非常隐秘。二是非常深,东部,华东地区都是比较浅,包括东北地区都是东部地区比较浅,新疆、西部地区非常深,有一些都上万米的井,打一口井上万米。三是隐蔽的油气藏。四是非物探,非常规的,比如说煤层气。五是深海油气。

这就带来新的问题。

大家讲降低生产成本,要做到所有的数据处理是准确的,精确的高效力,要可度量,要有一个具体数据,所以要做数字化、智能化,需要巨大的算力存储和灵活的IT基础设施,这就是AI的加持。

大家都知道,1956年就有了人工智能,三起两落,三次起来又落下去,发展了六七十年,现在又在做,为什么呢?因为没有解决落地的问题。今天一定要让人工智能产生效益,光做一个音响不行,要解决生产问题,现在做人工智能要跟工业生产结合起来,提升效率。

石油行业数字化、信息化是走在比较前面的。

我们上世纪90年代就在做信息化,油气勘探本身就是数字行业,采集过来都是数据,虽然采数据非常笨,有很多机械的模式,信息化从2000年第一个阶段就是分散建设,和现在很多单位一样,就是有钱就买一点。2000年左右不让分开买了,要集中。第三个阶段,就是要应用集成,因为买硬件和软件全部集成起来。第四个阶段就是要数据共享、软件也要共享,说起来很简单,做起来非常难。比如说软件共享怎么做?这都是技术问题,数据要有共享,那么多数据,不同的格式,所以会形成数据湖的概念。

共享起来就行了吗?不行,资源共享来以后要做数据化转型,数字化转型太虚了,到底做什么事?我后面会跟大家分享一下我们到底怎么做数字化创新。

通过以上几张PPT,我把怎么做石油勘探做了分享。

IT基础设施面临的机遇与挑战

数智时代IT基础设施到底有哪些新的挑战?下一步要做什么?我一一跟大家介绍。

这个PPT我做了好几个月,但是时间很短,我就讲其中一小部分。

今天的基础设施有新的内涵了,大家说基础设施、新基础设施,如果不加IT就有问题了。

数智时代的IT基础设施,数据中心、数据基础设施是其中一部分,为什么只算一部分呢?算力、存储、数据仓,这都是过去的;智能计算,加速卡、边缘计算、数据湖,还有算法库、模型库、知识库、技术标准体系、数据安全体系、AI开发平台、物联网平台、应用软件与开发平台、多学科协同研究平台,这都是今天新的基础设施,原来IT基础设施就是UPS、空调、布线,那都是看得见的硬件,刚刚说的都是软的,跟数据有关联。

今天的IT基础设施面临哪些机遇与挑战?

一是现有的IT基础设施已经很难满足生产发展需求,油气勘探的装备也和国外差距非常大,很大一部分的装备依赖于国外。

二是今天的算力不够。国家建了十个国家超算中心,24个智能大脑还不够吗?看你是干什么用,给石油就不够,但是干别的可能富裕了很多。

比如说一个项目的数据270T,要投入600+32GPU+4PB做配套。一个项目1000T,要2000多个CPU匹配,384GPU匹配,还有几十个PB匹配;另外,数据要流动,就要花很多空间。

三是存储不够,量不够,性能也不够。量靠买的,但是买多了成本也很高,以前1P就是几百万,后来几百万,现在变成几十万,现在几十万买几十P没有问题,但是一下买30P、50P也不少钱。

四是性能。海量的数据如何读写,检测也是很大的问题。1TB的数据在屏幕上显示一下很难打开,2TB的数据就更没法打开,三维可视化是没有办法打开的,一定要借助很多新的数据技术。

五是生产周期很长,系统扩展性差。现有的IT基础设施很难跟进业务发展的需要,为什么?因为要算成本,要提高用户体验,还要智能算力、智能运维,现有的基础设施做不到,大部分的公司做不到,只有新上的设备可以做到。

六是技术发展非常快,包括有云、物联网、云原生、人工智能等等。

现有IT基础设施无法适应数据挖掘要求,油气勘探过去积攒的数据都是分散放在不同的地方,如何把价值挖掘起来也是非常难的,有些地方有些数据还要考古,因为不知道数据是谁的,也不知道对不对,有些数据好几个副本,不知道哪一个是正确的,所以如何把它用起来是很难的。

过去很多单位都是一栋大楼放数据,很多先进的设备都躺在那儿,那个不是资产,资产要流动起来才有价值。

上午的报告我都在认真的听,有两个演讲提到了升级平台。沙钢有80多个应用平台,经过十几年、二十年的数字建设,会出现非常多孤立的应用。比如说工业互联网600多个APP,平台多,数据库多,数据类型有结构化、有半结构化、有非结构化的数据。

数智时代大模型成为技术竞争的新热点。

1956年出现人工智能,到70年代末有机器学习,机器学习做半天没有什么效果,大家就不干了,不投资了。2006年又做深度学习,深度学习能做一些事,但是算力不够,太贵,所以又停在那儿。这两年硬件价格下去,存储价格下去了,尤其是很多GPU的价格下来了,可以做很多事,所以从2018年开始要做大模型了。

以AIGC为例。AIGC一开始就是文字,只能看,后来还可以变为图像视频,多维的空间,不停的变,所以数据模型越来越多。

今天的大模型具有新的特点,一是超大模型都大于10亿数十/百层,数千张CPU训练。二是预训练,泛化的通用能力,具体场景可微调。三是学习方式是自监督学,不需要做标注,因为做标注非常难,非常费时间,另外就是框架,大家都知道大模型就两个家族,一个是OpenAI,一个就是Google的PaLm,他们是祖宗,后面又衍生了很多。其实模型的数据也是不停地变化,过去的是大模型,过几天也成小模型了,数据都在一直变。

大模型成为所有IT的头部公司都在做的事。好几家合作伙伴都让给我开账号,让我免费用,但有些能干,有些什么都干不了。比如,我让Python写代码,但是写了一半就不写了。

模型参数,我们了解了解就可以了,包括浪潮有元,华为有盘古,阿里有通义,百度有文心一言。

今天的人工智能从单点技术走向了通用技术,这是很不一样的,就是很时髦的AGI,从大模型走向超大模型,从单模态走向多模态。

大模型与新型IT基础设施

有太多挑战了,一是算力,算力的开放程度、架构、普惠程度,能不能用得起来,模型的部署,模型的训练,模型资源的调度、能耗等等还有就是在线服务能力,几千人、几万人上平台上点,平台就阻塞了,对平台要求在线化要求服务很高。

对企业来说,AGI的出现,基础设施会面临哪些挑战?一是算力不够,小公司玩不起。二是模型训练,三是要有很多的数据,四是就是人才,AI人才很吃香,价格很高。

对于一个企业来说,要适应新的变化,一是要把现有的应用变为智能化,二是模型建立自己行业的模型,三是智能的通用化。

我们做哪些呢?一是做工业互联网平台,多专业、跨领域的工业互联网平台,我们做了小十年了,这是最大的平台,跟业务结合起来。

二是数据湖,把横跨60多年的数据放进去,结构化和非结构化的数据都有,数据量是很庞大的。

三是人工智能通用平台。中石油花很多钱建人工智能通用平台,比如说TensorFlow、飞桨都可以重复用。

四是开发生产物联网平台,几万个数据采集做这个平台,各个油田安装使用。

五是高性能计算云平台。

六是应用软件云平台。应用软件是我们自己的,我们把云和软件结合在一起。

七是大模型平台。大家都在建自己行业的大模型。石油勘探,以前都是找一个区块勘探,这样实际上还是不够的。如柴达木盆地,就要建一个大的数据库,建一个大模型,以后在柴达木盆地搞勘探的时候就基于这个大模型,有指导意义。我们地震勘探大模型参数达到500万就够用了,上午有一位嘉宾讲到了如何把模型进行优化。

八是AI框架开发平台。

下一步的设想

一是统一顶层设计,要做好数字化转型规划。二是云计算平台技术升级,三是多学科协同平台,四是数据服务要进行升级,五是共享平台建设、物联网平台升级,六是数字孪生,数字孪生不是做监控,数字孪生一定和物理世界有交互,要互动,要实时,七是数据集中共享,如果数据还在分散,那数字化转型都是假的。数据集中并不简单,统一管理就把成本降下去了,数据挖掘,数据利用就可以真正实现数据资产的管理。八是AI一定要跟生产数据湖集成。

新型IT基础设施八大新

新型IT基础设施有八大新的特点。

新底座。新型IT基础设施是数智化转型关键底座,需要更强算力、更普惠、更绿色、更少碳足迹。

新标准,建立统一工业互联网技术体系、建立统一数据标准。

新平台,加快升级、完善全连接+业务协同工作平台+数据平台+AI平台集成实现数据共享+AI赋能。

新场景,坚持业务主导,需求导向、创新驱动、平台支撑。

新技术,加强AR/MR、数字孪生技术应用,构建全连接、全交互、全感知的数字孪生体。

新起点,人工智能AI正从单点技术走向真正通用技术AGI。

新范式,从大模型走向超大模型从单模态走向多模态。

新生态,探索与著名IT公司跨领域合作,形成开放共享创新应用生态。

我的报告就是这些,谢谢大家!