AGI将至！OpenAI发布通用智能体，ChatGPT Agent正式登场-DOIT-数据产业媒体与服务平台

导读

2025年7月18日，OpenAI抛出了一颗震撼业界的“重磅消息”。

在一场仅持续25分钟、干货满满的直播活动中，OpenAI首席执行官山姆·奥特曼亲自领衔，正式对外发布了ChatGPT的agent功能。这一举措绝非简单的产品迭代，而是释放出一个关键信号：AI助手正告别被动回应模式，大步迈进自主执行的新纪元。

该统一智能体系统的核心亮点在于，首次实现了三大AI技术的深度融合。它将Operator所具备的与网站交互的能力、DeepResearch擅长整合信息的技巧，以及ChatGPT在智能对话方面的优势，完美地整合在一起。

文字编辑｜宋雨涵

AI具备类人电脑操作能力

自主为你工作

如今，ChatGPT可以直接使用计算机，全程自主为你工作。从智能浏览网页、筛选结果，在需要时提醒安全登录、运行代码、进行分析，还能直出PPT和Excel汇总发现结果。

一项看似繁杂的任务摆在了眼前：为朋友精心策划一场婚礼。这要求AI不仅要依据着装规范和天气状况，推荐合适的礼服，还得预订酒店，并准备好贴心的礼物。

接到这项指令后，ChatGPT agent没有丝毫等待，即刻投入行动。它首先仔细确认了婚礼日期等关键信息，随后自主打开浏览器，有条不紊地一步步操作，还将自己的“思考路径”清晰明了地呈现给人类。整个过程，就如同一位训练有素、专业高效的数字助理在尽职工作。

更令人惊叹的场景出现了。在执行婚礼策划任务的过程中，研究员突然给出了一个全新的指令：“帮我找一双9.5码的黑色正装鞋”。模型几乎没有片刻迟疑，迅速暂停了正在进行的婚礼策划任务，转而优先处理这个新需求。待新需求处理完毕后，又无缝地切换回原来的婚礼策划任务，继续推进。这种强大的多任务处理能力以及出色的上下文切换能力，无疑是它迈向真正“智能体”行列的关键一步。

还有一个演示则聚焦于提升生产力。当团队上传了一张可爱的小狗图片，并要求制作500个笔记本贴纸时，Agent迅速自动调用API进行样式设计，接着打开电商平台仔细比价，最终将挑选好的商品一一加入购物车，还整理出了一份清晰易懂的下单明细。

革新办公自动化模式

挑战微软霸主地位

OpenAI正通过Agent功能挑战微软Office的统治地位。由于微软已将.xlsx和.pptx文件格式开源，ChatGPT可不依赖Office原生应用直接生成兼容文档。

在PPT制作演示中，Agent通过Google Drive API获取素材，结合设计模板引擎，10分钟内生成15页专业演示文稿，包含数据可视化和图文排版。用户可直接下载并在本地PowerPoint中打开。

当面临制定一份参观30多个美国职棒大联盟球场的最佳行程安排这一任务时，对于人类而言，这简直是一场令人头疼的“噩梦”，繁杂的信息梳理与行程规划让人望而却步。然而，ChatGPT agent却展现出了惊人的效率，仅耗时25分钟，就生成了一份直观且可视化的Excel表格，将行程安排得明明白白。

当然，它目前也并非毫无瑕疵。就拿生成的PPT来说，暂时还无法进行二次修改。这是因为它采用的技术路径是直接生成代码来创建文档，而不是像人类那样通过点击操作来完成，不过这也恰恰凸显了其底层逻辑具有颠覆性意义。

三、性能碾压安全方面奥特曼亲自发文

基准测试数据揭示了Agent的强悍实力。在衡量通用智能的Humanity’s Last Exam测试中，它以41.6%的得分碾压前代模型；

数学方面，FrontierMath是目前已知最难的数学基准测试，包含全新且未公开发表的问题，通常需要数学专家花费数小时甚至数天才能解决。在具备工具使用能力（例如可访问终端以执行代码）的情况下，ChatGPT Agent 在该测试中达到了 27.4% 的准确率，远远超越此前的所有模型。。

电子表格处理能力同样惊艳。在SpreadsheetBench测试中，使用LibreOffice工具时完成30%任务，获得终端原始Excel文件访问权限后，性能跃升至45%。

OpenAI针对ChatGPTAgent开展了专项评估，选取了BrowseComp基准测试作为评估场景。该基准由OpenAI于今年年初推出，主要作用是衡量具备浏览能力的Agent在网络中查找那些难以获取信息的能力。在这次测试中，ChatGPTAgent表现出色，一举创下了新的SOTA（当前最优表现）纪录，得分达到68.9%，相较于deepresearch高出了17.4个百分点。

最后，在WebArena基准测试里，该测试主要聚焦于评估网页浏览型Agent完成真实网页任务的能力。ChatGPTAgent同样有着亮眼表现，其成绩超越了由o3驱动的CUA（也就是驱动Operator的模型）。

面对自主AI的安全隐忧，奥特曼发文：

Agent象征着AI系统能力达到了全新高度，它能够借助自身所依托的计算机，为用户完成一些特殊且复杂的任务。它融合了Deep Research和Operator的核心优势，不过其实际功能远超人们的想象——它可以进行长时间的深度思考，运用各类工具，开展更深入的分析，采取相应行动，之后再进一步深入思考，如此循环。

例如，在发布会上我们展示了一个为朋友婚礼做筹备的演示，涵盖购买服装、预订行程、挑选礼物等事项。此外，还展示了一个分析数据并创建工作演示文稿的案例。

尽管Agent具有极大的效用，但潜在风险也不容小觑。我们已在其中构建了大量的安全措施与预警机制，还采取了比以往更为广泛的缓解策略，从强大的训练体系到系统安全保障，再到用户自主控制等方面都有涉及，但我们无法预知所有可能发生的情况。秉持迭代部署的理念，我们会向用户发出诸多警告，并给予用户自主决定是否谨慎采取行动的自由。

我会向家人解释，这是处于前沿且具有实验性质的技术。这是一个尝试未来的契机，但在我们有机会在现实世界中对它进行研究并加以改进之前，我不会将它用于高风险场景，也不会利用它获取大量个人信息。我们尚不清楚它具体会产生何种影响，但恶意行为者可能会试图“诱骗”用户的AI Agent，使其泄露本不该提供的隐私信息，并采取本不该采取的行动，而且这些行为的方式是我们难以预料的。

我们建议授予Agent完成任务所需的最低访问权限，以此降低隐私和安全风险。比如，我可以授权Agent访问我的日历，以便安排一个合适的聚餐时间。但如果我只是让它帮我买衣服，就不需要赋予它任何访问权限。像“查看我昨晚收到的电子邮件，并采取一切必要措施处理，不要问任何后续问题”这类任务，风险就比较大。这可能会导致恶意电子邮件中不可信的内容诱骗模型泄露你的数据。

我们认为，重要的是从接触现实开始学习。并且随着我们更好地量化和降低潜在风险，人们应当谨慎且缓慢地采用这些工具。和其他新的能力水平一样，社会、技术和风险缓解策略需要协同发展。

结语：

ChatGPT Agent的落地，无异于向生产力软件市场投下了一颗“深水炸弹”。它不再满足于充当聊天机器人或写作助手，而是野心勃勃地构建一个集信息处理、工具操作与决策支持于一体的在线服务平台。

对于企业而言，这意味着基础的数据整理、报告生成、竞品分析等环节将迎来效率的指数级跃升，人力资源有望向更高价值的战略与创意领域倾斜。然而，随之而来的挑战同样严峻：工作流程的重构、员工技能的再培训、以及AI执行结果的责任归属。OpenAI在安全机制上的谨慎设计（如操作接管、敏感拦截）是必要的起点，但企业和监管机构需共同构建更完善的治理框架。可以预见，Agent技术将率先在敢于拥抱变革的组织中扎根，并逐步重塑全球商业运作的效率基准与成本结构。

AGI将至！OpenAI发布通用智能体，ChatGPT Agent正式登场

lixiangjing

相关推荐

近期文章

热门标签