腾讯云吴永坚:「CB联动」,打造智能体时代“能力基座”

9月17日,在2025腾讯全球数字生态大会AI Agent产业应用峰会上,腾讯云智能体开发平台3.0(ADP3.0)面向全球上线,腾讯云副总裁、腾讯云智能产研负责人吴永坚首次系统展示ADP3.0面向企业级智能体开发的三层能力架构——智能体应用开发引擎模型与内容生态Agent Infra,以全新架构推动企业智能体从“可用”走向“好用”,让AI真正融入业务、创造价值。

腾讯云副总裁、腾讯云智能产研负责人 吴永坚

当前,企业智能体应用虽已在行政答疑、售后客服等场景显效,但仍普遍面临知识结构复杂、业务流程个性化和用户需求发散三大挑战。“智能体应用的开发,须在多个维度上具备更强的能力。”吴永坚指出。

在应用开发引擎层面,ADP3.0聚焦RAG与Agent两大核心能力升级。通过自研Agentic RAG架构,平台可实现对复杂、多源信息的高精度解析与智能关联,支持跨文档检索、多步推理与图谱增强,显著提升问答完整性与准确性。同时,平台强化了Agent的任务规划、工具调用与记忆管理能力,创新提出“动态无损记忆压缩”机制,将任务效率提升百倍以上,并引入多智能体协同机制,通过任务拆解与流程编排提升复杂业务处理效率。

模型与生态内容层面,ADP3.0构建了覆盖模型广场、插件广场以及提示词与应用模板的资源体系。不仅支持混元等自研模型及第三方模型接入,还提供超140个跨行业插件、近百个高质量提示词模板以及覆盖多行业多场景的最佳实践,显著降低开发门槛。

Agent Infra则确保智能体在生产环境中稳定、可控、安全运行。依托沙箱隔离、全链路监控与云原生安全能力,ADP3.0为企业提供从开发、部署到运营的全生命周期支持。

腾讯云智能体开发平台的能力已在QQ浏览器等多款产品中验证成效。接入ADP3.0能力后,QQ浏览器AI下载助理任务成功率明显提升,用户发送一句话,Agent即可完成从检索、筛选到下载的全流程;即将推出的“订阅助理”也基于ADP构建,支持自然语言精准订阅。

基于在腾讯C端产品中的实战,腾讯云智能体开发平台的能力也得到进一步打磨,更好地为B端客户服务,实现「CB联动」。

腾讯云正通过智能体开发平台打造智能体时代的“能力基座”,推动企业级AI从单点能力走向系统化、生产级应用,为千行百业提供可信、可运营的智能体基础设施。

以下为演讲全文:

大家好,我是腾讯的吴永坚。今天我分享的主题是:企业级智能体开发技术挑战与创新。

随着数字化浪潮的推进,企业级智能体已经在越来越多场景中广泛应用,实实在在为业务带来了价值。比如,在行政知识问答、商品售后客服等领域,帮助企业提升了效率、优化了体验。但在帮助企业真正把智能体“用起来”的过程中,我们也发现了一些共性的难点:

第一,企业知识不仅海量,且极其复杂。大量文档都是图文混排、表格嵌套,对知识处理精度提出了非常高的要求。

第二,企业业务流程非常个性化。在多轮业务办理的场景中,对于准确从对话中提取关键信息、灵活响应用户中途修改需求,也有很高的要求。

第三,用户的需求常常发散,一个问题中往往包含多个复杂任务,智能体既要准确理解,又要合理选择工具,很多时候,单智能体难以应对。

针对这些挑战,智能体应用的开发,需在多个维度上具备更强的能力。不仅涉及智能体应用开发核心能力,还有广泛的生态接入,同时离不开底层基础设施的支持。

为此,腾讯云智能体开发平台也在持续升级,致力于打造更完善的企业级智能体应用开发引擎和基础设施,帮助企业真正把智能体嵌入到业务流程,处理真实任务,并带来可衡量的业务价值。

在应用开发层,平台提供三大核心引擎:知识引擎、工作流引擎和Agent引擎,形成完整的能力矩阵。

在此基础上,还通过模型广场、插件广场等模块,提供丰富的开发资源库,让企业开发者可以根据不同业务场景,按需选择接入不同的工具与模型。

同时,通过大量实战经验的沉淀,输出行业应用模板和系列课程体系,帮助企业降低学习与落地门槛。

在底层基础设施层,平台提供身份权限、安全合规接入与运行管理等功能,确保智能体可在生产环境中“稳定、可控、安全”地执行。

接下来,我从以下三个方面详细给大家分享一下,关于企业级智能体开发的技术挑战和技术创新。

在智能体应用开发引擎方面,我将为大家分享RAG和Agent方面的核心进展。

企业级RAG落地,面临的核心挑战是:如何精准解析并有效利用企业中海量且复杂的知识。

首先,图文混排的复杂文档解析,是知识处理层面的一大挑战。例如,在面对一份零售行业说明书时,传统OCR技术在解析复杂版面时,容易丢失关键的产品示意图或表格,影响知识问答的完整性。

其次,跨文档的信息关联也是一个难题。当用户提出诸如“列出计租面积大于100平的所有商户,并附上这些商户档案摘要、关联竞争关系”这类复杂问题时,往往需要从多份不同的知识源中查找和关联信息。传统RAG技术在跨文档检索和信息融合方面能力较弱,导致智能体往往只能回复不完整的答案,如只输出了商户列表,没有输出对应的答案摘要。

为此,我们从传统 RAG 升级到了 Agentic RAG——通过提供知识库检索Agent,智能体不再只是被动检索,而是能够自己主动拆解复杂问题、通过多步调用检索工具,从不同文档中搜集信息,再主动筛选这些信息,最终组织成精准、完整的回答。

面对上述复杂问题,智能体可以通过自主规划,将任务拆解为三个关键步骤,层层递进地完成应答:

首先,调用Text-to-SQL工具,精准检索数据表,筛选出“符合条件的商户列表”;接下来,通过文本检索工具获取这些商户的详细档案摘要,包括主营业务、入驻时间等关键信息;最后,借助知识图谱检索能力,深入分析商户之间的关联关系,例如竞争关系。

在Agentic RAG的能力框架下,我们通过在业务场景中不断攻坚知识问答的深水区难题,逐渐沉淀出一套多元的RAG能力矩阵,涵盖文档解析、一站式检索引擎、GraphRAG(即图谱检索增强)。

文档解析环节,我们依托腾讯优图自研的OCR大模型,实现了对复杂文档的高精度解析。支持包括图文混排在内的复杂版式分析,能够准确识别插图、表格、公式、页眉页脚等超过26类文档元素。

针对成本敏感、响应速度有较高要求的场景,我们结合QQ浏览器多年的在移动端、PC端沉淀的工程解析优化,创新地提供模型与工程相结合的解析策略,动态识别页面复杂度——对于简单页面自动路由至高效工程化解析链路,保障精度的同时,整体解析耗时与资源成本优化达40%。

对于存在合并单元格、填写备注信息等不规则的数据表格,通过高精度表格解析能力,将原本非结构化表格自动转化为结构化表格,提升不规则表格的解析准确率。

而在检索环节,引入基于Agent的Text2SQL能力,不仅能够自动从大量数据表中精准筛选相关的表和字段,还能将复杂的业务问题智能拆解为多个子问题。支持通过外部工具执行SQL,自主识别并优化其中存在错误的查询语句,提升应答准确性。

在此,平台通过提供连接企业数据库的方式,可支持万行以上大表的稳定检索与智能问答,真正实现对海量结构化数据的价值挖掘。

在多模态场景中,用户可能通过图片提问,例如,在汽车客服助手的场景里,用户可能截取一个设备图片来询问具体使用方式,要求智能体准确关联用户问题与文档内容,并给出精准回答。

为此,我们在数十亿数据上训练得到性能优异的中文CLIP模型,  提供不同尺寸支持,在不同数据集上均有优异的表现。通过多模态检索技术,可根据用户问题中的图片或文本,快速定位知识库中相关的图文信息。最终,让智能体能够提供既准确又直观的图文并茂的答案。

GraphRAG,也是大模型应对复杂领域知识问答的关键技术路径之一,能显著提升企业级智能体在深层语义理解与多步推理上的表现。

典型应用场景包括:

1.多步推理与深度关联分析,例如前面提到的“分析上述商户之间的关联风险与竞争关系”。

2.海量知识的结构化整合,如“浏览器网页标签页”。

3.不同知识库之间的信息关联与整合分析。

在企业落地中,仍面临几个关键挑战:

其一,依赖大语言模型构建图谱结构,Token消耗量大、处理时间长,成本高昂;

其二,效果瓶颈,复杂查询的推理效果存在天花板;

其三,适配成本高,每适配一个新领域,迁移与迭代成本较高。

为此,背靠腾讯优图实验室自研的GraphRAG能力,我们实现了构图成本的大幅优化,让企业级智能体面对复杂推理及结构化任务时,显著提升准确率。该能力目前已成功应用于QQ浏览器等产品,并将上线腾讯云智能体开发平台,为更多企业用户提供开箱即用的图检索增强支持。

在这里,也为大家展示一个GraphRAG在QQ浏览器中的实际应用案例:智能网页标签分类。

在未引入GraphRAG前,浏览器对网页标签的分类往往只能做到粗颗粒度,例如,将相关网页简单归类为“体育赛事”。

而接入GraphRAG能力之后,能够对“体育赛事”这类宽泛主题进行深层语义下钻与拆解,生成如“足球赛事”“篮球名人堂”等更具象、更便于用户管理的子类别,极大提升了网页归类效率与体验。

除 RAG,Agent也是智能体开发平台的核心能力。接下来我们看浏览器如何结合Agent能力来解决用户日常的痛点。以下载场景为例:内容找不到,信息获取效率低;格式不对,找到也无法使用;操作繁琐,效率低下。比如,用户可能会提出这样的请求:“请帮我下载几篇初中地理教师资格证考试的资料”。常规我们需要网上搜索和不断甄别网页有效信息来查找,查找一两个小时但不一定能找到。

刚才提到的下载案例背后反映了三大挑战:一是模型既要理解复杂指令,又要处理超长上下文;二是工具使用从简单API演进到复杂的浏览器操作和多工具组合;三是记忆,企业级应用需长时上下文,但token消耗巨大。除此之外,引入多Agent协作,也能进一步缓解落地难题。

我们先看大模型在Agent场景下的表现。传统大模型只是在一轮问答中给出答案,而Agent应用要求模型能主动拆解任务调用工具。为此我们做了两方面优化:一是强化工具调用。借助受限解码,让模型在复杂场景中能稳定、百分之百输出正确的Function-Call,调用工具完成任务。二是模型训练优化。通过引入RL,在模型学会更精准地调用工具,提升任务完成率。比如下载场景,经过训练后,模型能自动补全关键词,直接筛选搜索PDF格式文件。这就是我们希望看到的变化:模型不仅能“回答问题”,更能真正“完成任务”。

工具越多功能越强,但在Agent世界里也可能变成“工具迷宫”。面对几十个工具,Agent既要选得对,还要排得准,否则就会低效甚至误判。以Browser Use为例,由打开网页、点击元素、搜索、滚动、下载等原子化工具组成,看似简单,却必须严格按顺序组合调用才能完成任务。如何在这些原子化工具中精准决策、合理编排顺序,正是工具挑战的核心所在。

因此我们对重点工具进行了优化。以检索任务为例,打造了WideTool WebQA,能自动拆解搜索词,并对结果摘要汇总,按需提供信息。借助这些优化工具,Agent执行效率显著提升,任务可以完成得更快、更准。

接下来我们看记忆管理。Agent在复杂任务中,记忆往往是最大难点。以下载场景为例,一次任务可能要访问几十个网页,单个网页就有数万甚至上百万token,而Agent往往需跑几十轮对话,累积上下文超过10万token,远超主流模型处理能力。没有有效的记忆管理机制,Agent就会被庞大上下文拖垮。

为解决这一问题,我们提出了动态无损记忆压缩。核心思路是在存储时压缩,但不丢关键细节,需要时可原样恢复。具体包括两点:一是上下文压缩,把历史结果和工具调用总结为紧凑的记忆文件;二是文件级无损存储,通过压缩和分层挂载随时恢复完整信息,保证结果可复现。实验中我们将7万token压缩至约500token,效率提升141倍。有了这一机制,Agent才能真正具备长时记忆,支撑企业级复杂任务。

接下来我们看Single Agent到Multi-Agent的演进。刚才提到,模型、工具和记忆的复杂性,让单Agent能力遇到瓶颈:一是多工具选择带来决策压力;二是单体调试困难,任务过载难以拆解优化;三是扩展性不足,能力边界很快触顶。为此我们引入Multi-Agent。在下载场景中,通过解耦协作,由总控Agent规划分配任务,专职Download Agent负责文件下载。这样既降低了调试难度,也让分工更清晰、效率更高。

Multi-Agent能突破单体局限,那具体如何协同呢?在ADP平台上,除了自由转交外,我们新增了两种模式:一是工作流编排将Agent嵌入确定流程,适合环节固定的业务;二是Plan-and-Execute模板,由Planner Agent统筹规划,将任务拆解分配给执行Agent(如搜索、代码、总结、报告等),并结合共享记忆,提升协作有效性。企业可按场景灵活选择,真正发挥Multi-Agent的优势。

以QQ浏览器AI下载助理为例,它能帮助用户一键获取资源。结合刚才介绍一系列能力能力,下载成功率提升26.8%(由40%升至66.82%)。过去像下载考试资料,需要用户自行搜索、登录并逐一下载,流程繁琐;而现在只需输入一句话,Agent就能自动检索、核对并交付所需PDF文件。这些Agent实战的能力,都沉淀到ADP平台来。

在下载助理成功落地后,QQ浏览器将于10月中下旬推出订阅助理Agent。它基于ADP的Agent框架,支持用户用自然语言选择网页区域或主题,快速完成订阅。无论是企业跟进行业报告、消费者获取新品资讯,还是追星一族,都能通过订阅助理实现高效、精准、个性化的订阅体验。

刚才我们介绍了智能体应用开发引擎的RAG和Agent核心能力。但企业要真正开发好智能体,还需要生态支撑,把复杂开发变成生产化搭建。

我们的目标,是从模型、到工具、到提示词模板,再到应用模板,构建一个完整的生态,帮助企业快速落地应用。

为满足不同企业场景诉求,平台提供模型广场,不仅支持混元及优图精调等预置模型,也支持用户通过API-Key接入第三方模型。在应用开发阶段,用户可按需选择模型,及进行对比调试。

同时,对于已在TI-ONE平台拥有模型服务的用户,只需要完成相应授权,就能把同账号下的TI-ONE模型,直接同步到智能体开发平台中使用。

在插件生态方面,平台已上架超140个高质量插件。我们按照行业×能力构建插件地图:纵向覆盖金融、出行、医疗、教育等行业,横向涵盖图片识别、行业信息源、实用工具等能力,拓展企业级智能体应用边界。

此外,平台提供近百个高质量提示词模板,覆盖RAG、Workflow、Agent三大核心模式。以Multi-Agent为例,提供了任务分解与转交的最佳写法。帮助开发者直接复用成熟经验,高效构建应用。

在应用模版方面,平台提供覆盖教育、传媒、医疗、金融等多行业多场景的最佳实践。如教育的科研文献解读,传媒的播客生成,医疗的在线问诊,金融的股票异动分析等。通过提供应用开发要点,让企业可快速实现从0到1的落地。

接下来我们进Agent Infra部分。要让Agent真正落地企业,光有模型不够,还需要完整的生产流水线。我们从三方面保障:一是安全执行环境,通过沙箱确保受控运行;二是可观测与可运营,保证智能体运行可见可管;三是安全审查与合规,多维度保障合规与可追溯。这些构成了企业安心使用Agent的基础设施。

在执行环境层面,我们提供三类沙箱。代码沙箱支持session级隔离与实时销毁,保证代码运行的安全;浏览器沙箱与QQ浏览器深度合作,打磨Agent原生的browser use工具能力;文件管理沙箱则支持与COS打通,支持多Agent共享文件。三类沙箱共同构成了安全可控的执行环境。

在可观测性上,我们提供从应用到对话的全链路监控。应用上线后,开发者不仅能查看整体运行数据,还可下钻到trace粒度,支持工作流节点级查看,帮助精准定位问题、持续优化效果,确保智能体在大规模场景下的稳定可靠。

同时,Agent Infra将腾讯云的底层能力深度融合进智能体开发平台,并以插件的形式提供。像CLS日志管理、COS存储、Lighthouse服务器、EdgeOne部署、CloudBase云开发,这些腾讯云基础设施能力,现在都能在智能体开发平台内直接调用,帮助企业打通应用与底层云能力,高效落地。

在安全与合规层面,我们通过大模型安全网关抵御MCP带来的多重安全威胁,包括注入攻击、数据泄漏和恶意工具调用等。支持身份安全、工具安全、内容安全和攻击防护,帮助企业在规模化应用中实现全方位的安全保障。

未来,腾讯也将围绕客户需求,持续打磨产品,为各行各业用好智能体提供助力!我的分享到此结束,谢谢大家!