英伟达H20/H100那套,Anthropic悄悄搬进了大模型!而当AI开始验收自己,人类还剩什么权力?

Anthropic发布Fable 5和Mythos 5,前者让AI首次自己验收自己,后者用算力分级把最强能力锁进精英圈层。当AI从答题者变成出题者,算力经济的账本正在从token数悄悄改写为项目数,而人类最后剩下的权力,可能只剩下在验收单上签字。


Deep Dive

Fable 5一天干完两个月,但它最狠的活是给自己写了份验收单

Stripe 5000万行Ruby代码库全库迁移,人工团队吭哧吭哧干两个多月,Fable 5一天搞定。

全网都在算速度账,但Anthropic官方文档里藏了一个更细思极恐的细节。

Claude Code团队说,他们正在将任务执行与任务评估分离,不再逐行盯着模型有没有写对,而是验证它有没有在做对的事。这句话翻译过来就是,AI开始自己给自己定KPI了。

当AI从答题者变成出题者,从执行者变成评估者,人类在协作链条里的角色,正在发生一次静默但不可逆的漂移。

 AI开始给自己出考卷,但判卷权还在人类手里

Fable 5带来的第一个权力反转,藏在AskUserQuestion这个工具里。

它的作者Thariq Shihipar是Claude Code团队成员,这个工具的功能就是让AI反过来采访你。动手写代码前,Claude先抛一串选择题,把实现细节、边界情况、取舍问清楚,最后落成一份SPEC.md。


模型能自己跑得越久,这种事先问清楚的能力就越重要。

过去的人机协作模式是人类下命令,AI执行。现在变成了AI先审核你的需求是否清楚,再决定接不接这个活。

Anthropic官方强调,Fable 5比以往任何Claude模型都能更长时间自主工作,任务越长越复杂,它领先得越多。

这意味着AI最稀缺的能力已经不是写代码,而是定义什么才是对的问题。当模型能在百万级token的长任务里保持专注,还能利用自己的笔记改进输出,需求澄清权正在从人类向AI倾斜。

但这不等于人类可以当甩手掌柜。

Anthropic官方最佳实践里专门列了一类失败模式,叫信任但不验证的缺口

症状就是AI给的实现看着像模像样,却没处理边界情况。解法永远配验证,测试、脚本、截图都行,验证不了,就别发。当AI的交付速度远超人类的认知带宽,验收能力反而成了整个链条里最脆弱的环节。

Claude Code里藏了一个迷你绩效官,但它只认聊天记录

更隐蔽的设计是/goal命令。

你给Claude设一个完成条件,它就跨轮次一直干,不需要你一轮轮去催。每干完一轮,会有另一个更轻更快的小模型出来打分,默认是Haiku,专门读一遍完成条件和这轮对话,判一句达成还是没达成,再附一句理由。没达成就接着干,达成了自动收工。

这本质上是一个内部KPI考核系统。主模型负责干活,评估模型负责验收,人类只负责定标准。

但Anthropic自己也承认,这个评估器不会自己跑命令,也不会自己读文件,它只能看Claude在对话里摆出来的证据。所以这套自检交付不等于无人审稿,它更像一个自带HR系统的承包商,能自己填绩效表,但表上数据真不真,还得人类抽查。

敢放手的前提是你会验收,但问题是,当模型自主运行九个小时,调度上千个子智能体交叉验证,你凭什么认为自己能在一天内审完它两个月的工程量。Anthropic官方补了一条,所有最佳实践全是起点,不是教条。诀窍是留心什么管用,慢慢地,你会长出一种没有任何指南可以教的直觉。到了那一步,你才算真懂了怎么和它一起干活。

一个人能管1000个AI打卡,组织架构正在被重写

如果说/goal是让一个Claude干得更久,那Dynamic workflows就是让一群Claude一起干。

Claude替你写一段JavaScript脚本,去编排大量子智能体在后台跑。官方文档写得明白,一次运行最多调动1000个智能体,同时并发最多16个。适用场景包括全库代码审计、500个文件的大迁移、需要交叉验证的研究问题。

但这跟传统HPC高性能计算完全是两码事。

传统超算讲的是任务并行、数据并行,把一个大问题拆成很多小份分给不同节点。

Fable 5的智能体编排,拆的不是计算任务,而是组织任务。调研、验证、纠错、交叉核验,每个智能体都是一个有自主决策权的微型承包商。

这对数据中心提出了全新的基础设施需求,不是更大的单卡算力,而是更低的智能体间通信延迟、更稳定的上下文持久化、更高效的分布式记忆同步。

换句话说,未来的云计算卖的可能不再是虚拟机或容器,而是智能体编排单元

当一个人就能指挥一支上千个AI的军团,企业的组织形态可能会从金字塔变成蜂巢。中间管理层的职能正在被重构,因为调度、对齐、验收这些活,AI自己就能干。人类经理的价值,从分配任务变成了写验收标准,但验收标准本身也是AI在跑。

同一颗心脏两套安全阀,Glasswing名单暴露Anthropic的算力野心

Fable 5和Mythos 5是同一底层模型,只是安全护栏配置不同。

Fable 5面向所有人,但背后挂了独立分类器,碰到网络安全、生化风险或模型蒸馏意图,立刻降级到Opus 4.8。Mythos 5则解除部分安全限制,只开放给Glasswing partners


首批Glasswing名单包括AWS、Apple、Cisco、Google、Microsoft、NVIDIA等科技巨头,2026年6月又新增约150个合作伙伴。

超过 95%的会话不会触发降级,但剩下不到5%的请求会进入更严格的安全路径。

这套逻辑与英伟达H20和H100的分级策略有相似之处。

H20是阉割版,H100是满血版,分级卖给不同信任级别的客户。Anthropic只不过把这套算力分级策略从硬件搬到了软件。

更隐蔽的是代价,从Mythos级模型开始,所有流量保留30天用于安全监控。

若内容被标记为违反使用政策,可能被保留长达两年用于安全和合规用途。对企业客户来说,这就是一道算力主权交易,想用最强能力,就得接受数据被平台留存审查。

安全不再只是模型回答前的一句免责声明,而是分类器、模型路由、权限分级、数据留存共同组成的产品架构。OpenAI走一个模型卖全球的民主化路线,Anthropic走能力分层的权限化路线。哪种路线更能定义AI产业的未来,可能比任何benchmark都更值得算力圈关注。

在定价上,Fable 5较Opus 4.8显著提高,Mythos 5仅限企业级合作伙伴,价格未公开。能力越猛,门槛越高,这几乎成了前沿模型的铁律。

Fable 5和Mythos 5的真正突破,不在于它们在排行榜上刷了多少分,而在于它们第一次证明了AI可以独立完成项目制工作。从AskUserQuestion的需求澄清,到/goal的自我评估,再到Dynamic workflows的组织编排,Anthropic端出的不是一把更快的锤子,而是一个自带绩效系统的承包商。

当AI开始自己给自己定目标、自己给自己评估、自己给自己攒局,人类最后剩下的权力,可能就只剩下在验收单上签字。但这个签字权到底是专业判断,还是免责声明,答案可能连Anthropic自己都没想好。对算力圈来说,与其焦虑程序员会不会失业,不如先问一个更现实的问题,你的基础设施,准备好迎接一个自带KPI考核系统的AI承包商了吗?

扫描下方二维码 关注我们

我们以算力为线,持续跟进算力基础设施的报道,输出洞察,伴随算力行业实现算力自由。敬请关注!




本文来源于DOIT传媒,文章内容仅供参考,不构成投资建议。

赞 ()

相关推荐

发表回复

评论列表

点击查看更多

    联系我们

    微信:百易小助手

    邮件:contact@doit.com.cn

    工作时间:周一至周五,9:30-18:30,节假日休息

    微信