腾讯云吴永坚：「CB联动」，打造智能体时代“能力基座”-DOIT-数据产业媒体与服务平台

9月17日，在2025腾讯全球数字生态大会AI Agent产业应用峰会上，腾讯云智能体开发平台3.0（ADP3.0）面向全球上线，腾讯云副总裁、腾讯云智能产研负责人吴永坚首次系统展示ADP3.0面向企业级智能体开发的三层能力架构——智能体应用开发引擎、模型与内容生态、Agent Infra，以全新架构推动企业智能体从“可用”走向“好用”，让AI真正融入业务、创造价值。

当前，企业智能体应用虽已在行政答疑、售后客服等场景显效，但仍普遍面临知识结构复杂、业务流程个性化和用户需求发散三大挑战。“智能体应用的开发，须在多个维度上具备更强的能力。”吴永坚指出。

在应用开发引擎层面，ADP3.0聚焦RAG与Agent两大核心能力升级。通过自研Agentic RAG架构，平台可实现对复杂、多源信息的高精度解析与智能关联，支持跨文档检索、多步推理与图谱增强，显著提升问答完整性与准确性。同时，平台强化了Agent的任务规划、工具调用与记忆管理能力，创新提出“动态无损记忆压缩”机制，将任务效率提升百倍以上，并引入多智能体协同机制，通过任务拆解与流程编排提升复杂业务处理效率。

模型与生态内容层面，ADP3.0构建了覆盖模型广场、插件广场以及提示词与应用模板的资源体系。不仅支持混元等自研模型及第三方模型接入，还提供超140个跨行业插件、近百个高质量提示词模板以及覆盖多行业多场景的最佳实践，显著降低开发门槛。

Agent Infra则确保智能体在生产环境中稳定、可控、安全运行。依托沙箱隔离、全链路监控与云原生安全能力，ADP3.0为企业提供从开发、部署到运营的全生命周期支持。

腾讯云智能体开发平台的能力已在QQ浏览器等多款产品中验证成效。接入ADP3.0能力后，QQ浏览器AI下载助理任务成功率明显提升，用户发送一句话，Agent即可完成从检索、筛选到下载的全流程；即将推出的“订阅助理”也基于ADP构建，支持自然语言精准订阅。

基于在腾讯C端产品中的实战，腾讯云智能体开发平台的能力也得到进一步打磨，更好地为B端客户服务，实现「CB联动」。

腾讯云正通过智能体开发平台打造智能体时代的“能力基座”，推动企业级AI从单点能力走向系统化、生产级应用，为千行百业提供可信、可运营的智能体基础设施。

以下为演讲全文：

大家好，我是腾讯的吴永坚。今天我分享的主题是：企业级智能体开发技术挑战与创新。

随着数字化浪潮的推进，企业级智能体已经在越来越多场景中广泛应用，实实在在为业务带来了价值。比如，在行政知识问答、商品售后客服等领域，帮助企业提升了效率、优化了体验。但在帮助企业真正把智能体“用起来”的过程中，我们也发现了一些共性的难点：

第一，企业知识不仅海量，且极其复杂。大量文档都是图文混排、表格嵌套，对知识处理精度提出了非常高的要求。

第二，企业业务流程非常个性化。在多轮业务办理的场景中，对于准确从对话中提取关键信息、灵活响应用户中途修改需求，也有很高的要求。

第三，用户的需求常常发散，一个问题中往往包含多个复杂任务，智能体既要准确理解，又要合理选择工具，很多时候，单智能体难以应对。

针对这些挑战，智能体应用的开发，需在多个维度上具备更强的能力。不仅涉及智能体应用开发核心能力，还有广泛的生态接入，同时离不开底层基础设施的支持。

为此，腾讯云智能体开发平台也在持续升级，致力于打造更完善的企业级智能体应用开发引擎和基础设施，帮助企业真正把智能体嵌入到业务流程，处理真实任务，并带来可衡量的业务价值。

在应用开发层，平台提供三大核心引擎：知识引擎、工作流引擎和Agent引擎，形成完整的能力矩阵。

在此基础上，还通过模型广场、插件广场等模块，提供丰富的开发资源库，让企业开发者可以根据不同业务场景，按需选择接入不同的工具与模型。

同时，通过大量实战经验的沉淀，输出行业应用模板和系列课程体系，帮助企业降低学习与落地门槛。

在底层基础设施层，平台提供身份权限、安全合规接入与运行管理等功能，确保智能体可在生产环境中“稳定、可控、安全”地执行。

接下来，我从以下三个方面详细给大家分享一下，关于企业级智能体开发的技术挑战和技术创新。

在智能体应用开发引擎方面，我将为大家分享RAG和Agent方面的核心进展。

企业级RAG落地，面临的核心挑战是：如何精准解析并有效利用企业中海量且复杂的知识。

首先，图文混排的复杂文档解析，是知识处理层面的一大挑战。例如，在面对一份零售行业说明书时，传统OCR技术在解析复杂版面时，容易丢失关键的产品示意图或表格，影响知识问答的完整性。

其次，跨文档的信息关联也是一个难题。当用户提出诸如“列出计租面积大于100平的所有商户，并附上这些商户档案摘要、关联竞争关系”这类复杂问题时，往往需要从多份不同的知识源中查找和关联信息。传统RAG技术在跨文档检索和信息融合方面能力较弱，导致智能体往往只能回复不完整的答案，如只输出了商户列表，没有输出对应的答案摘要。

为此，我们从传统 RAG 升级到了 Agentic RAG——通过提供知识库检索Agent，智能体不再只是被动检索，而是能够自己主动拆解复杂问题、通过多步调用检索工具，从不同文档中搜集信息，再主动筛选这些信息，最终组织成精准、完整的回答。

面对上述复杂问题，智能体可以通过自主规划，将任务拆解为三个关键步骤，层层递进地完成应答：

首先，调用Text-to-SQL工具，精准检索数据表，筛选出“符合条件的商户列表”；接下来，通过文本检索工具获取这些商户的详细档案摘要，包括主营业务、入驻时间等关键信息；最后，借助知识图谱检索能力，深入分析商户之间的关联关系，例如竞争关系。

在Agentic RAG的能力框架下，我们通过在业务场景中不断攻坚知识问答的深水区难题，逐渐沉淀出一套多元的RAG能力矩阵，涵盖文档解析、一站式检索引擎、GraphRAG（即图谱检索增强）。

文档解析环节，我们依托腾讯优图自研的OCR大模型，实现了对复杂文档的高精度解析。支持包括图文混排在内的复杂版式分析，能够准确识别插图、表格、公式、页眉页脚等超过26类文档元素。

针对成本敏感、响应速度有较高要求的场景，我们结合QQ浏览器多年的在移动端、PC端沉淀的工程解析优化，创新地提供模型与工程相结合的解析策略，动态识别页面复杂度——对于简单页面自动路由至高效工程化解析链路，保障精度的同时，整体解析耗时与资源成本优化达40%。

对于存在合并单元格、填写备注信息等不规则的数据表格，通过高精度表格解析能力，将原本非结构化表格自动转化为结构化表格，提升不规则表格的解析准确率。

而在检索环节，引入基于Agent的Text2SQL能力，不仅能够自动从大量数据表中精准筛选相关的表和字段，还能将复杂的业务问题智能拆解为多个子问题。支持通过外部工具执行SQL，自主识别并优化其中存在错误的查询语句，提升应答准确性。

在此，平台通过提供连接企业数据库的方式，可支持万行以上大表的稳定检索与智能问答，真正实现对海量结构化数据的价值挖掘。

在多模态场景中，用户可能通过图片提问，例如，在汽车客服助手的场景里，用户可能截取一个设备图片来询问具体使用方式，要求智能体准确关联用户问题与文档内容，并给出精准回答。

为此，我们在数十亿数据上训练得到性能优异的中文CLIP模型, 提供不同尺寸支持，在不同数据集上均有优异的表现。通过多模态检索技术，可根据用户问题中的图片或文本，快速定位知识库中相关的图文信息。最终，让智能体能够提供既准确又直观的图文并茂的答案。

GraphRAG，也是大模型应对复杂领域知识问答的关键技术路径之一，能显著提升企业级智能体在深层语义理解与多步推理上的表现。

典型应用场景包括：

1.多步推理与深度关联分析，例如前面提到的“分析上述商户之间的关联风险与竞争关系”。

2.海量知识的结构化整合，如“浏览器网页标签页”。

3.不同知识库之间的信息关联与整合分析。

在企业落地中，仍面临几个关键挑战：

其一，依赖大语言模型构建图谱结构，Token消耗量大、处理时间长，成本高昂；

其二，效果瓶颈，复杂查询的推理效果存在天花板；

其三，适配成本高，每适配一个新领域，迁移与迭代成本较高。

为此，背靠腾讯优图实验室自研的GraphRAG能力，我们实现了构图成本的大幅优化，让企业级智能体面对复杂推理及结构化任务时，显著提升准确率。该能力目前已成功应用于QQ浏览器等产品，并将上线腾讯云智能体开发平台，为更多企业用户提供开箱即用的图检索增强支持。

在这里，也为大家展示一个GraphRAG在QQ浏览器中的实际应用案例：智能网页标签分类。

在未引入GraphRAG前，浏览器对网页标签的分类往往只能做到粗颗粒度，例如，将相关网页简单归类为“体育赛事”。

而接入GraphRAG能力之后，能够对“体育赛事”这类宽泛主题进行深层语义下钻与拆解，生成如“足球赛事”“篮球名人堂”等更具象、更便于用户管理的子类别，极大提升了网页归类效率与体验。

除 RAG，Agent也是智能体开发平台的核心能力。接下来我们看浏览器如何结合Agent能力来解决用户日常的痛点。以下载场景为例：内容找不到，信息获取效率低；格式不对，找到也无法使用；操作繁琐，效率低下。比如，用户可能会提出这样的请求：“请帮我下载几篇初中地理教师资格证考试的资料”。常规我们需要网上搜索和不断甄别网页有效信息来查找，查找一两个小时但不一定能找到。

刚才提到的下载案例背后反映了三大挑战：一是模型既要理解复杂指令，又要处理超长上下文；二是工具使用从简单API演进到复杂的浏览器操作和多工具组合；三是记忆，企业级应用需长时上下文，但token消耗巨大。除此之外，引入多Agent协作，也能进一步缓解落地难题。

我们先看大模型在Agent场景下的表现。传统大模型只是在一轮问答中给出答案，而Agent应用要求模型能主动拆解任务调用工具。为此我们做了两方面优化：一是强化工具调用。借助受限解码，让模型在复杂场景中能稳定、百分之百输出正确的Function-Call，调用工具完成任务。二是模型训练优化。通过引入RL，在模型学会更精准地调用工具，提升任务完成率。比如下载场景，经过训练后，模型能自动补全关键词，直接筛选搜索PDF格式文件。这就是我们希望看到的变化：模型不仅能“回答问题”，更能真正“完成任务”。

工具越多功能越强，但在Agent世界里也可能变成“工具迷宫”。面对几十个工具，Agent既要选得对，还要排得准，否则就会低效甚至误判。以Browser Use为例，由打开网页、点击元素、搜索、滚动、下载等原子化工具组成，看似简单，却必须严格按顺序组合调用才能完成任务。如何在这些原子化工具中精准决策、合理编排顺序，正是工具挑战的核心所在。

因此我们对重点工具进行了优化。以检索任务为例，打造了WideTool WebQA，能自动拆解搜索词，并对结果摘要汇总，按需提供信息。借助这些优化工具，Agent执行效率显著提升，任务可以完成得更快、更准。

接下来我们看记忆管理。Agent在复杂任务中，记忆往往是最大难点。以下载场景为例，一次任务可能要访问几十个网页，单个网页就有数万甚至上百万token，而Agent往往需跑几十轮对话，累积上下文超过10万token，远超主流模型处理能力。没有有效的记忆管理机制，Agent就会被庞大上下文拖垮。

为解决这一问题，我们提出了动态无损记忆压缩。核心思路是在存储时压缩，但不丢关键细节，需要时可原样恢复。具体包括两点：一是上下文压缩，把历史结果和工具调用总结为紧凑的记忆文件；二是文件级无损存储，通过压缩和分层挂载随时恢复完整信息，保证结果可复现。实验中我们将7万token压缩至约500token，效率提升141倍。有了这一机制，Agent才能真正具备长时记忆，支撑企业级复杂任务。

接下来我们看Single Agent到Multi-Agent的演进。刚才提到，模型、工具和记忆的复杂性，让单Agent能力遇到瓶颈：一是多工具选择带来决策压力；二是单体调试困难，任务过载难以拆解优化；三是扩展性不足，能力边界很快触顶。为此我们引入Multi-Agent。在下载场景中，通过解耦协作，由总控Agent规划分配任务，专职Download Agent负责文件下载。这样既降低了调试难度，也让分工更清晰、效率更高。

Multi-Agent能突破单体局限，那具体如何协同呢？在ADP平台上，除了自由转交外，我们新增了两种模式：一是工作流编排将Agent嵌入确定流程，适合环节固定的业务；二是Plan-and-Execute模板，由Planner Agent统筹规划，将任务拆解分配给执行Agent（如搜索、代码、总结、报告等），并结合共享记忆，提升协作有效性。企业可按场景灵活选择，真正发挥Multi-Agent的优势。

以QQ浏览器AI下载助理为例，它能帮助用户一键获取资源。结合刚才介绍一系列能力能力，下载成功率提升26.8%（由40%升至66.82%）。过去像下载考试资料，需要用户自行搜索、登录并逐一下载，流程繁琐；而现在只需输入一句话，Agent就能自动检索、核对并交付所需PDF文件。这些Agent实战的能力，都沉淀到ADP平台来。

在下载助理成功落地后，QQ浏览器将于10月中下旬推出订阅助理Agent。它基于ADP的Agent框架，支持用户用自然语言选择网页区域或主题，快速完成订阅。无论是企业跟进行业报告、消费者获取新品资讯，还是追星一族，都能通过订阅助理实现高效、精准、个性化的订阅体验。

刚才我们介绍了智能体应用开发引擎的RAG和Agent核心能力。但企业要真正开发好智能体，还需要生态支撑，把复杂开发变成生产化搭建。

我们的目标，是从模型、到工具、到提示词模板，再到应用模板，构建一个完整的生态，帮助企业快速落地应用。

为满足不同企业场景诉求，平台提供模型广场，不仅支持混元及优图精调等预置模型，也支持用户通过API-Key接入第三方模型。在应用开发阶段，用户可按需选择模型，及进行对比调试。

同时，对于已在TI-ONE平台拥有模型服务的用户，只需要完成相应授权，就能把同账号下的TI-ONE模型，直接同步到智能体开发平台中使用。

在插件生态方面，平台已上架超140个高质量插件。我们按照行业×能力构建插件地图：纵向覆盖金融、出行、医疗、教育等行业，横向涵盖图片识别、行业信息源、实用工具等能力，拓展企业级智能体应用边界。

此外，平台提供近百个高质量提示词模板，覆盖RAG、Workflow、Agent三大核心模式。以Multi-Agent为例，提供了任务分解与转交的最佳写法。帮助开发者直接复用成熟经验，高效构建应用。

在应用模版方面，平台提供覆盖教育、传媒、医疗、金融等多行业多场景的最佳实践。如教育的科研文献解读，传媒的播客生成，医疗的在线问诊，金融的股票异动分析等。通过提供应用开发要点，让企业可快速实现从0到1的落地。

接下来我们进Agent Infra部分。要让Agent真正落地企业，光有模型不够，还需要完整的生产流水线。我们从三方面保障：一是安全执行环境，通过沙箱确保受控运行；二是可观测与可运营，保证智能体运行可见可管；三是安全审查与合规，多维度保障合规与可追溯。这些构成了企业安心使用Agent的基础设施。

在执行环境层面，我们提供三类沙箱。代码沙箱支持session级隔离与实时销毁，保证代码运行的安全；浏览器沙箱与QQ浏览器深度合作，打磨Agent原生的browser use工具能力；文件管理沙箱则支持与COS打通，支持多Agent共享文件。三类沙箱共同构成了安全可控的执行环境。

在可观测性上，我们提供从应用到对话的全链路监控。应用上线后，开发者不仅能查看整体运行数据，还可下钻到trace粒度，支持工作流节点级查看，帮助精准定位问题、持续优化效果，确保智能体在大规模场景下的稳定可靠。

同时，Agent Infra将腾讯云的底层能力深度融合进智能体开发平台，并以插件的形式提供。像CLS日志管理、COS存储、Lighthouse服务器、EdgeOne部署、CloudBase云开发，这些腾讯云基础设施能力，现在都能在智能体开发平台内直接调用，帮助企业打通应用与底层云能力，高效落地。

在安全与合规层面，我们通过大模型安全网关抵御MCP带来的多重安全威胁，包括注入攻击、数据泄漏和恶意工具调用等。支持身份安全、工具安全、内容安全和攻击防护，帮助企业在规模化应用中实现全方位的安全保障。

未来，腾讯也将围绕客户需求，持续打磨产品，为各行各业用好智能体提供助力！我的分享到此结束，谢谢大家！

腾讯云吴永坚：「CB联动」，打造智能体时代“能力基座”

zhupb

相关推荐

近期文章

热门标签