所有人都在喊AI原生数据库,亚马逊云科技却劝你别急

亚马逊云科技中国峰会期间,亚马逊云科技数据库服务副总裁Ganapathy (G2) Krishnamoorthy大谈AI时代的数据库,他的介绍让我看到了AI时代,到底应该对数据库做点什么。

AI时代,几乎所有科技产品都在紧跟AI的节奏,都会努力往自己身上贴一个AI标签。比如,做芯片的会说这是为AI而生的芯片,做存储的会说这是AI存储,做数据库的会说这是为AI场景而做的数据库。

6月23日,亚马逊云科技中国峰会期间,亚马逊云科技数据库服务副总裁Ganapathy (G2) Krishnamoorthy大谈AI时代的数据库,他的介绍让我看到了AI时代,到底应该对数据库做点什么。

G2是一位资深数据库专家,在该领域拥有超过20年的深厚积累。G2曾在微软构建SQL Server数据库、Azure Analytics及Azure ML的多个组成部分。加⼊亚⻢逊之前,G2在Facebook/Meta构建并运营了数据、分析与机器学习平台。

作为数据库领域的专家,他对于AI时代数据库的看法还是非常有参考意义的。

 


虽然AI原生数据库的概念很火,但也别急着推倒重来

现在的AI给人一种改天换地的气质,似乎所有的东西都应该面向AI改造一遍。

有人认为,应该面向AI时代重建一个完全AI原生的数据底座,做AI原生数据库。也有的人认为,不应该改动原有基础设施,而是应该在现有数据库上叠向量检索和Agent记忆这些插件

对此,G2更倾向于后者的看法,对与这类技术选型,针对三种情况给出了比较务实的建议。

首先,如果用的是SQL Server、Oracle这种传统商业数据库,他建议企业做现代化改造,迁到MySQL或PostgreSQL不仅能省掉高昂的授权费,长期架构也更健康。

第二种情况,如果企业手里一套现成的ERP或者供应链这类封装应用,那不急着下手可以等准备好再改造,眼下先想办法从现有数据里榨出价值。

第三种情况,如果你要开一个全新项目时,G2强烈建议直接上现代开源底座,关系型数据库用MySQL或PostgreSQL,数据湖用Apache Iceberg格式,因为开源底座不仅灵活,而且成本上有压倒性优势。

在G2看来,哪怕AI很火,也没必要改变太多,无论处于那种阶段,都应该把释放数据价值作为首要任务,而不是整天想着推翻重构底层数据基础设施,这话说得非常务实。

当然,如果是初创公司,反正都是一张白纸,怎么选都灵活。而对于大公司而言,它已经在过去的技术上砸了大量投资、经历过好几轮迭代,所以方案必须契合它现有的盘子,而不是推倒重来。

 

智能体Agent到底需要什么样的数据库?

当被问到企业大量部署AI Agent之后,支撑智能体应用的数据库和以前跑传统程序的数据库到底有什么不同时?G2提到了三条。

第一条,接入方式变了。现在各大模型都把MCP当成访问数据的标准接口,所以目前亚马逊云科技旗下所有数据库都接上了MCP服务器,无论是PostgreSQL、MySQL、DynamoDB,还是Oracle、SQL Server都能让Agent顺畅地够到里面的数据。

第二条,Agent得有记忆。Agent干活离不开上下文和记忆,为了让数据库获得存储和管理Agent记忆的能力,就需要给数据库加上向量功能和混合搜索能力,比如,PostgreSQL配上pgvector插件图数据库Amazon Neptune加入向量检索能力。

第三条,得应对暴涨的需求规模。Agent会自主跑任务,请求量比人手动操作高一个量级,所以 serverless(无服务器)和弹性伸缩变得关键。这块是亚马逊云科技传统强项,DynamoDB、Aurora、DSQL这一串serverless产品就是为这个准备的。

为什么要强调这三条呢?因为,在G2看来,智能体Agent要的数据库最大的特点就是能降低使用门槛,他们真正需要的是一个撒手不管(Hands-off)的自动化数据库底座,而这三条本质上就是用来降低使用门槛的。

认为,现在借助AI工具,任何人都能做出应用,但这些人根本没有传统 DBA的技能,不会评估实例规格,也不懂日常运维。所以面向这批人的数据库,必须真正做到不用人管,能自己创建、按需自动伸缩、随时间自我优化。

 

Amazon Context,RAG更懂企业的数据


当然,AI时代,光靠数据库是不够的。不久前的亚马逊云科技纽约峰会上,新发布了一个叫Amazon Context的新服务,打算用它来解决现在企业部署AI Agent时,Agent不知道企业真正的知识问题

有朋友会说,这个事儿不是RAG负责的吗?没错,RAG确实会在Agent要回答问题前,先去向量库里检索相关资料,把资料塞给模型当参考资料看。既能防止模型的幻觉,也用来解决模型不知道企业内部信息的大难题,日常用的很多。

G2介绍称,如果更进一步拥有关于所有数据的上下文(Context),以及基于持续的操作行为来改进数据的关系和使用方式,会对Agent结果的准确性和解决方案的效能产生决定性的影响

对比来看,RAG是一个静态的资料库,你检索它,它给你材料,仅此而已。而Amazon Context基于企业的全部数据构建上下文层。更厉害的是,它还自我进化,根据Agent的使用行为改进数据之间的关系和使用方式

在实际应用中发现,只要用得越多,它对企业数据的理解就越准,Agent给出的答案也越准G2管这叫复利效应。

与很多云服务一样,Amazon Context也是从实际应用中孵化而来的。亚马逊云科技去年内部先搞了个叫semantic store(语义存储)的上下文层,用来驱动自家的Amazon Quick应用,实际使用中确实看到准确率明显提升。

但与部分客户开展试点项目时,发现每个客户自行搭建自己的上下文层,将耗费极其庞大的精力。于是,亚马逊直接这项驱动Amazon Quick的技术抽出来,做成一个客户能直接配的基础组件

 

写在最后

在FOMO情绪四处蔓延的AI时代,在一个所有人都急着给产品贴AI原生标签的时候。G2的这番话让我们意识到,哪怕是AI时代,数据库这边也不需要急着推倒重来,这既是清醒的思路,也是务实的态度。


本文来源于DOIT传媒,文章内容仅供参考,不构成投资建议。

赞 ()

相关推荐

发表回复

评论列表

点击查看更多

    联系我们

    微信:百易小助手

    邮件:contact@doit.com.cn

    工作时间:周一至周五,9:30-18:30,节假日休息

    微信