导读
2025年7月18日,OpenAI抛出了一颗震撼业界的“重磅消息”。
在一场仅持续25分钟、干货满满的直播活动中,OpenAI首席执行官山姆·奥特曼亲自领衔,正式对外发布了ChatGPT的agent功能。这一举措绝非简单的产品迭代,而是释放出一个关键信号:AI助手正告别被动回应模式,大步迈进自主执行的新纪元。

该统一智能体系统的核心亮点在于,首次实现了三大AI技术的深度融合。它将Operator所具备的与网站交互的能力、DeepResearch擅长整合信息的技巧,以及ChatGPT在智能对话方面的优势,完美地整合在一起。
文字编辑|宋雨涵
1
AI具备类人电脑操作能力
自主为你工作
如今,ChatGPT可以直接使用计算机,全程自主为你工作。从智能浏览网页、筛选结果,在需要时提醒安全登录、运行代码、进行分析,还能直出PPT和Excel汇总发现结果。
一项看似繁杂的任务摆在了眼前:为朋友精心策划一场婚礼。这要求AI不仅要依据着装规范和天气状况,推荐合适的礼服,还得预订酒店,并准备好贴心的礼物。
接到这项指令后,ChatGPT agent没有丝毫等待,即刻投入行动。它首先仔细确认了婚礼日期等关键信息,随后自主打开浏览器,有条不紊地一步步操作,还将自己的“思考路径”清晰明了地呈现给人类。整个过程,就如同一位训练有素、专业高效的数字助理在尽职工作。
更令人惊叹的场景出现了。在执行婚礼策划任务的过程中,研究员突然给出了一个全新的指令:“帮我找一双9.5码的黑色正装鞋”。模型几乎没有片刻迟疑,迅速暂停了正在进行的婚礼策划任务,转而优先处理这个新需求。待新需求处理完毕后,又无缝地切换回原来的婚礼策划任务,继续推进。这种强大的多任务处理能力以及出色的上下文切换能力,无疑是它迈向真正“智能体”行列的关键一步。
还有一个演示则聚焦于提升生产力。当团队上传了一张可爱的小狗图片,并要求制作500个笔记本贴纸时,Agent迅速自动调用API进行样式设计,接着打开电商平台仔细比价,最终将挑选好的商品一一加入购物车,还整理出了一份清晰易懂的下单明细。
2
革新办公自动化模式
挑战微软霸主地位
OpenAI正通过Agent功能挑战微软Office的统治地位。由于微软已将.xlsx和.pptx文件格式开源,ChatGPT可不依赖Office原生应用直接生成兼容文档。
在PPT制作演示中,Agent通过Google Drive API获取素材,结合设计模板引擎,10分钟内生成15页专业演示文稿,包含数据可视化和图文排版。用户可直接下载并在本地PowerPoint中打开。
当面临制定一份参观30多个美国职棒大联盟球场的最佳行程安排这一任务时,对于人类而言,这简直是一场令人头疼的“噩梦”,繁杂的信息梳理与行程规划让人望而却步。然而,ChatGPT agent却展现出了惊人的效率,仅耗时25分钟,就生成了一份直观且可视化的Excel表格,将行程安排得明明白白。
当然,它目前也并非毫无瑕疵。就拿生成的PPT来说,暂时还无法进行二次修改。这是因为它采用的技术路径是直接生成代码来创建文档,而不是像人类那样通过点击操作来完成,不过这也恰恰凸显了其底层逻辑具有颠覆性意义。
三、性能碾压安全方面奥特曼亲自发文
基准测试数据揭示了Agent的强悍实力。在衡量通用智能的Humanity’s Last Exam测试中,它以41.6%的得分碾压前代模型;
数学方面,FrontierMath是目前已知最难的数学基准测试,包含全新且未公开发表的问题,通常需要数学专家花费数小时甚至数天才能解决。在具备工具使用能力(例如可访问终端以执行代码)的情况下,ChatGPT Agent 在该测试中达到了 27.4% 的准确率,远远超越此前的所有模型。。
电子表格处理能力同样惊艳。在SpreadsheetBench测试中,使用LibreOffice工具时完成30%任务,获得终端原始Excel文件访问权限后,性能跃升至45%。
OpenAI针对ChatGPTAgent开展了专项评估,选取了BrowseComp基准测试作为评估场景。该基准由OpenAI于今年年初推出,主要作用是衡量具备浏览能力的Agent在网络中查找那些难以获取信息的能力。在这次测试中,ChatGPTAgent表现出色,一举创下了新的SOTA(当前最优表现)纪录,得分达到68.9%,相较于deepresearch高出了17.4个百分点。
最后,在WebArena基准测试里,该测试主要聚焦于评估网页浏览型Agent完成真实网页任务的能力。ChatGPTAgent同样有着亮眼表现,其成绩超越了由o3驱动的CUA(也就是驱动Operator的模型)。
面对自主AI的安全隐忧,奥特曼发文:
Agent象征着AI系统能力达到了全新高度,它能够借助自身所依托的计算机,为用户完成一些特殊且复杂的任务。它融合了Deep Research和Operator的核心优势,不过其实际功能远超人们的想象——它可以进行长时间的深度思考,运用各类工具,开展更深入的分析,采取相应行动,之后再进一步深入思考,如此循环。
例如,在发布会上我们展示了一个为朋友婚礼做筹备的演示,涵盖购买服装、预订行程、挑选礼物等事项。此外,还展示了一个分析数据并创建工作演示文稿的案例。
尽管Agent具有极大的效用,但潜在风险也不容小觑。我们已在其中构建了大量的安全措施与预警机制,还采取了比以往更为广泛的缓解策略,从强大的训练体系到系统安全保障,再到用户自主控制等方面都有涉及,但我们无法预知所有可能发生的情况。秉持迭代部署的理念,我们会向用户发出诸多警告,并给予用户自主决定是否谨慎采取行动的自由。
我会向家人解释,这是处于前沿且具有实验性质的技术。这是一个尝试未来的契机,但在我们有机会在现实世界中对它进行研究并加以改进之前,我不会将它用于高风险场景,也不会利用它获取大量个人信息。我们尚不清楚它具体会产生何种影响,但恶意行为者可能会试图“诱骗”用户的AI Agent,使其泄露本不该提供的隐私信息,并采取本不该采取的行动,而且这些行为的方式是我们难以预料的。
我们建议授予Agent完成任务所需的最低访问权限,以此降低隐私和安全风险。比如,我可以授权Agent访问我的日历,以便安排一个合适的聚餐时间。但如果我只是让它帮我买衣服,就不需要赋予它任何访问权限。像“查看我昨晚收到的电子邮件,并采取一切必要措施处理,不要问任何后续问题”这类任务,风险就比较大。这可能会导致恶意电子邮件中不可信的内容诱骗模型泄露你的数据。
我们认为,重要的是从接触现实开始学习。并且随着我们更好地量化和降低潜在风险,人们应当谨慎且缓慢地采用这些工具。和其他新的能力水平一样,社会、技术和风险缓解策略需要协同发展。
结语:
ChatGPT Agent的落地,无异于向生产力软件市场投下了一颗“深水炸弹”。它不再满足于充当聊天机器人或写作助手,而是野心勃勃地构建一个集信息处理、工具操作与决策支持于一体的在线服务平台。
对于企业而言,这意味着基础的数据整理、报告生成、竞品分析等环节将迎来效率的指数级跃升,人力资源有望向更高价值的战略与创意领域倾斜。然而,随之而来的挑战同样严峻:工作流程的重构、员工技能的再培训、以及AI执行结果的责任归属。OpenAI在安全机制上的谨慎设计(如操作接管、敏感拦截)是必要的起点,但企业和监管机构需共同构建更完善的治理框架。可以预见,Agent技术将率先在敢于拥抱变革的组织中扎根,并逐步重塑全球商业运作的效率基准与成本结构。