2025年6月18日凌晨,硅谷科技圈迎来一场大地震。谷歌正式宣布Gemini 2.5系列全系开放商用,其中轻量级模型Gemini 2.5 Flash-Lite以0.1美元/百万Token(约人民币0.7元)的破冰定价杀入市场,直接将大模型推理成本拖入“分时代”。

文字编辑|宋雨涵
1
重磅更新
轻量模型的“重型武器”
- Gemini 2.5 Pro稳定版发布且已全面可用,其与6月5日的预览版相比无变化。
- Gemini 2.5 Flash稳定版发布且已全面可用,其与5月20日的预览版相比无变化,但价格有更新。
- 新推出了Gemini 2.5 Flash-Lite并已开启预览。
Gemini 2.5 Pro(稳定版)
定位旗舰级复杂任务处理,支持多模态输入(文本/图像/音频/视频/代码)和百万级上下文窗口(可解析整本《三体》或3小时视频),专注高精度编程、科学推理与长文档分析。新增“深度思考”(Deep Think)模式,通过递归分析提升复杂问题解决能力,在USAMO数学竞赛、LiveCodeBench编程测试中超越GPT-4.5等竞品。
Gemini 2.5 Flash(稳定版)
主打效率与成本平衡,输入/输出定价调整为 $0.3/$2.5/百万Token(原预览版为$0.15/$3.5),取消“思考/非思考”双轨计费,统一为单一定价简化成本控制。支持动态思考预算控制(0-24K Token),根据任务复杂度自动调整推理资源,在保证精度的同时降低70%计算负载。
Gemini 2.5 Flash-Lite(预览版)
支持百万Token上下文与多模态输入,默认关闭“思考”功能以优化速度,但可按需启用。演示实时生成操作系统内核能力,用户点击图标后动态生成非确定性UI界面(如文件夹内容实时变化),颠覆传统软件开发流程。
性价比核弹:输入/输出成本仅 $0.1/$0.4/百万Token(约¥0.7/¥2.9),较前代Flash输出成本降低62%,创行业新低。
首个在TPU v5p架构上训练的模型系列
Gemini2.5系列模型运用了稀疏混合专家(MoE)架构,具备原生支持文本、视觉以及音频输入的能力。稀疏MoE模型的工作原理是,通过学习将不同的token动态分配到参数子集(即专家)中,为每个输入token激活特定的模型参数子集。这种机制让模型总容量与每个token的计算及服务成本实现了分离。
在应对训练不稳定性的挑战时,Gemini2.5模型系列着重在增强大规模训练稳定性、优化信号传播以及改进动态方面取得了突出成果。该系列模型是在Gemini1.5处理长上下文查询取得成功的基础上构建的,并融入了新的建模技术,使得Gemini2.5Pro在处理长达1Mtokens的长上下文输入序列时,性能超越了Gemini1.5Pro。无论是Gemini2.5Pro还是Gemini2.5Flash,都能够处理长格式文本、完整的代码库,以及长格式的音频和视频数据。
Gemini2.5模型系列是谷歌首个在TPUv5p架构上进行训练的模型系列。谷歌采用同步数据并行训练方式,在分布于多个数据中心的谷歌TPUv5p加速器的多个8960芯片pod上进行并行化训练。其预训练数据集规模庞大且类型多样,广泛覆盖多个领域和模态,包含公开可用的Web文档、各种编程语言的代码、图像、音频(涵盖语音及其他音频类型)以及视频。这里需要说明的是,Gemini2.0的数据收集截止日期为2024年6月,而Gemini2.5的截止日期为2025年1月。
谷歌还采用了新方法来提升数据过滤和去重的质量,其训练后数据集由精心收集和审核的指令调优数据构成,是多模态数据的集合,除包含人类偏好和工具使用数据外,还有成对的指令和响应。谷歌研究报道指出,在后训练阶段,他们借助模型来辅助监督微调(SFT)、奖励建模(RM)和强化学习(RL)阶段,以此实现更高效、更精细的数据质量控制。此外,谷歌增加了分配给RL的训练计算资源,并结合对可验证奖励和基于模型的生成奖励的关注,以提供更复杂、更具可扩展性的反馈信号。RL过程的算法改进提升了长时间训练期间的稳定性。
Gemini推理模型通过强化学习进行训练,能够在推理时利用额外的计算资源来得出更精确的答案。生成的模型具备“思考”能力,在回答问题或查询之前,会进行数万次正向传递。
2
价格屠刀:
0.7元如何重构行业生态?
此次更新在价格方面,Gemini-2.5-Flash-Lite比Gemini-2.5-Flash便宜30%-60%,输入价格为0.1美元(折合人民币约0.7元)/百万tokens,输出价格为0.4美元(折合人民币约2.9元)/百万tokens。
谷歌还宣布了Gemini 2.5 Flash的最新定价,模型的思考和非思考价格相同,输入价格为0.3美元(折合人民币约2.2元)/百万tokens,输出价格为2.5美元(折合人民币约17.9元)/百万tokens。
我们再来看看主流模型定价格局(2025年6月)
模型 | 输入成本/百万token | 输出成本/百万token | 性价比定位 |
Gemini 2.5 Flash-Lite | $0.1 (≈¥0.7) | $0.4 (≈¥2.9) | 极致性价比 |
Gemini 2.5 Flash | $0.3 | $2.5 | 均衡型 |
OpenAI GPT-4 Turbo | $10 | $30 | 高性能高成本 |
OpenAI GPT-4o-mini | $1.1 | $4.4 | 轻量竞品 |
DeepSeek-R1 | $1.0 | $16.0 (≈¥22) | 开源性价比代表 |
Claude 3.7 Sonnet | $3.0 | $15.0 | 中高端 |
定价背后的“三重革命”
① 技术民主化加速:顶尖AI从“实验室奢侈品”变为“开发者日用品”,一瓶矿泉水钱处理千万字时代正式开启;
② 竞争维度升维:模型战场从“纯性能PK”转向“效能+成本+生态”综合较量,谷歌借云基建优势碾压纯软件厂商;
③ 行业标准重置:$0.1/百万token成为新心理锚点,倒逼全行业优化架构——没有MoE与超算集群的玩家,或许将或将永久出局。
未来展望:
价格战只是开始,生态战才是终局
谷歌此次”放核弹”绝非孤立事件。结合近期动作:
1、硬件协同:搭配Tensor G5芯片的Pixel 10系列将在Q3发布,GFL将作为默认AI助手
2、开发者激励:推出”AI Startup Fund”计划,承诺前100万次调用免费
3、开源布局:GFL的蒸馏技术论文将在CVPR2025发表
这标志着AI竞争从单点技术突破,升级为”硬件-模型-生态”的立体战争。对于企业用户而言,真正的价值不在于API价格,而是能否构建端到端解决方案。
结语:
谷歌此次”价格核爆”式的发布,不仅是一款新产品的亮相,更标志着AI行业进入了一个全新的发展阶段。当千亿参数模型以0.7元/百万token的价格提供时,我们不禁要问:AI民主化的拐点是否已经到来?
这一轮”价格战”背后,是AI基础设施成熟度的重要里程碑。如同云计算在2010年代初期的发展轨迹,当计算资源价格突破某个临界点后,会催生大量新型应用和创新模式。可以预见,GFL的低成本高性能将加速各行业AI应用渗透,特别是在传统企业数字化、医疗健康、教育普惠等领域。