北京——2025年8月6日 亚马逊云科技宣布,Anthropic最新一代模型Claude Opus 4.1与Claude Sonnet 4,现已在Amazon Bedrock全面上线。这批新型双模推理模型支持在即时响应与“深度思考”模式间动态切换,为编码、高级推理及多步骤工作流树立了全新行业标杆,能够在复杂且长耗时的任务中保持稳定性能,驱动AI Agents将耗时数小时的工作压缩至分钟级完成。
将Claude Opus 4.1和Claude Sonnet 4引入Amazon Bedrock,为客户提供了Anthropic最先进模型的选择,简化了客户借助企业级安全保障和负责任的AI管控机制,构建更优质、更具变革性应用程序的流程。

评估方法说明:
1.使用pass@1指标,结合bash、编辑器工具对Opus 4.1、Opus 4和Sonnet 4进行测试。在10次试验中取平均值,单次尝试修补,测试时不进行额外计算,采用核采样(nucleus sampling)方法,设置top_p值为0.95。
2.本文报告的所有分数均基于默认Agent框架(“Terminus 1”),并在5次试验中取平均值。
3.Claude在MMMLU上的得分,取自14种非英语语言得分的平均值。
4.Opus 4.1、Opus 4和Sonnet 4在AIME上的测试采用核采样方法,设置top_p值为0.95。
全新的Claude 4模型从根本上改变了团队处理复杂项目的方式。对于那些需要持续投入精力和深厚专业知识的大型企业而言,这一变革尤为显著。Claude 4双模推理模型支持客户在即时响应与深度推演间灵活选择,这些模型可彻底改变企业将AI应用于复杂任务和日常高容量业务操作的方式。两款模型均旨在为跨数千个步骤的多步骤工作流,提供更强大、更自主的AI Agents支持。Claude Opus 4.1也是Anthropic迄今为止功能最强的模型,编程能力冠绝业界。
Claude Opus 4.1如同一位精明能干的协作伙伴,在Agentic搜索与研究、内容创作以及记忆和上下文管理方面表现出色,能够综合提炼深刻见解、产出高质量内容并实现高效总结。
Claude Opus 4.1可直接替代Opus 4,它在实际编码和Agent任务中,展现出更出色的性能和精准度。Anthropic表示,Claude Opus 4.1是其迄今为止最智能的模型,且在编码和Agent领域处于行业领先地位。该模型具备先进的编码能力,能够独立规划并执行复杂的端到端开发任务,同时根据用户风格进行调整,并始终保持高质量输出。此外,该模型还改进了前端代码生成功能,在有效处理复杂逻辑的同时,能输出高质量的视觉效果。
另外,Opus 4.1具备出色的长期任务处理能力和复杂问题解决能力,是持续推理和长链行动中的理想虚拟协作伙伴。它还能提升AI Agents的性能,使其能够以极高的准确度应对复杂的多步骤任务。
Claude Sonnet 4则以高效性著称,将敏捷思维与实用智能完美融合,适用于各类项目。凭借速度与性能的平衡,Claude Sonnet 4可在各项任务间无缝切换,秉持务实态度,确保首次执行即能圆满完成。
Claude Sonnet 4在编码和推理能力上,均超越了其前代产品Claude Sonnet 3.7,并在性能与成本优化之间实现了平衡,非常适合处理大批量应用场景,成为大多数生产应用的理想之选。Claude Sonnet 4的应用范围十分广泛,既能为实时客户支持Agent提供支持,也能处理代码审查、漏洞修复等日常开发任务,还可作为特定任务的子Agent同时处理搜索、数据分析或内容合成等多项任务。旅游和酒店业客户可以借助Claude Sonnet 4实时处理客户请求,并以近乎实时的速度提供个性化回复。
这两款模型均具备 “深度思考”功能,使Claude能够在深度推理和行动执行两种模式间灵活切换。Claude可根据需要进行数据分析,并在工作过程中不断提高准确性,从而更精准地预判并执行后续步骤。
Anthropic公司增长与营收部门负责人Kate Jensen表示:“Claude Opus 4和Claude Sonnet 4将AI从一种工具,转变为每个人、每个团队的真正协作伙伴。我们的客户将看到项目周期大幅缩短——在许多情况下,能从数周缩短至数小时。Claude 4系列模型在编码、高级推理及多步骤工作流方面树立了新标杆,同时能全面理解业务背景并输出精准结果。其真正的突破在于,Claude承担了大量繁重工作,让团队人才得以专注于战略性工作。”
核心信息
新一代Claude模型标志着Agentic AI能力的重大飞跃,彻底改变了企业将AI应用于专业复杂任务和日常高容量运营的方式。Claude Opus 4.1和Claude Sonnet 4不再局限于内容生成,而是更像专业的虚拟协作伙伴,能够在复杂任务中保持专注,留存相关上下文信息,无需提供持续指导即可提供完整的解决方案。
这一能力革新了企业应对挑战的方式,从软件开发到营销策略制定均可适用。对于日常用户而言,这意味着他们可以使用更懂自身需求的AI,且该AI能独立承担项目中更大比例的工作。
数据解读:
- 两款模型均配备20万token的上下文窗口,能让用户处理和生成大篇幅内容(如文档分析和研究工作),且始终保持内容质量与连贯性。token是模型可处理的最小文本数据单位(例如一个单词、短语或单个字符)。较长的响应在丰富的代码生成和内容创作中效果尤为显著。
- 据Anthropic介绍,Claude Opus 4.1在SWE-bench基准测试中,将其顶尖的编码性能提升至74.5%,实现了稳定且显著的进步,助力开发人员及其应用始终保持领先地位。与前代产品相比,Claude Opus 4.1能够更专注更精准地浏览大型代码库,并擅长处理长时间运行的任务,对编码Agent的规划和协调能力也有所提升。除编码外,Opus 4.1还增强了Claude的深度研究和数据分析能力,尤其是在细节追踪和Agent搜索方面。
- 两款模型能够在提供快速直接答案与逐步推理解答之间灵活切换,在关键行业基准测试中,大幅提升了多步骤工作流程的性能表现。
据Anthropic公司称,Claude Opus 4.1和Claude Sonnet 4预示着未来AI系统,将在创意工作和知识型工作中成为能力日益强大的合作伙伴。例如,它们可在企业中承担更多专业角色,如处理日常分析工作、跨部门协作,甚至在极少监督的情况下管理完整的工作流程。
更多详情,请参阅Amazon Bedrock上Anthropic的Claude产品页面。