火山引擎多箭齐发,最新图像编辑、同传模型,加速Agent开发落地,扣子全面开源

导读

在7月30日,在火山引擎主办的FORCE Link AI创新巡展厦门站活动现场,火山引擎正式对外发布了豆包系列全新模型及AI云原生服务的升级成果。此次发布涵盖了豆包·图像编辑模型3.0版本、同声传译模型2.0版本,以及全面升级的豆包大模型1.6系列。

同时,火山引擎还推出了扣子核心能力的开源计划,以及企业自有模型托管方案等一系列工具,旨在为企业和开发者打造Agent、推动AI应用落地提供全方位、全栈式的支持。

文字编辑|宋雨涵

1

双模型突破

SeedEdit 3.0重构图像编辑逻辑

还记得那些年我们为了P一张图而苦苦学习Photoshop的日子吗?或者为了一个简单的图片修改需求,不得不求助于专业设计师的尴尬?豆包最新图像编辑模型的发布,正在悄然改变这一切。

该模型通过三重能力升级,彻底改变人机协作的修图模式:

更强指令遵循能力:精准解析自然语言指令,理解如“将西装材质换成灯芯绒并保持褶皱自然”的复杂要求

更强图像保持能力:确保修改仅针对目标区域,避免误改

更强图像生成质量:输出效果自然无AI痕迹,达到商业级视觉标准

“用户只需通过自然语言指令,就能完成消除多余内容、改变光影效果、替换文字等操作,甚至实现图像风格转换、变换材质、变化人物姿势等创意场景。”火山引擎技术负责人在演示中介绍。

在实际应用层面,这款模型已经引起了多个行业的关注。电商行业可以用它快速生成产品展示图;媒体行业可以用它进行新闻图片的即时编辑;教育行业可以用它制作生动的教学素材。更重要的是,它大大降低了创意表达的门槛,让更多人能够将自己的想象力转化为视觉作品。

语言无界,

豆包同传模型打破沟通壁垒

在国际沟通领域,传统同传系统依赖“级联模型”架构——语音识别、机器翻译、语音合成等多个模块串联工作,导致翻译延迟高达8-10秒。当听众听到翻译时,演讲者可能已进入下一个话题。

豆包·同声传译模型2.0采用全双工框架,实现边听边说。将语音延迟从8-10秒降低到2-3秒,接近人类同传译员水平。

更突破性的是其0样本声音复刻功能:无需提前录制,系统在翻译过程中实时捕捉说话者音色特征,让同一个人以相同音色说外语,甚至匹配方言口音。

2

豆包大模型升级

速度与成本的极致平衡

作为AI应用的基础设施,大模型性能直接影响企业智能化转型成效。火山引擎此次全面升级豆包大模型1.6系列,在速度、成本和多模态能力上实现突破。

Doubao-Seed-1.6-flash极速版成为最大亮点。该模型专为大规模商业化场景设计,在保持强大视觉理解能力的同时,强化代码、推理、数学等核心能力。

其性能参数令人印象深刻:TPOT(首Token输出时间)低至10ms,为业界领先水平。在0-32k输入文本长度区间(企业最常用场景),成本降至每百万tokens输入0.15元、输出1.5元。

在实际客户案例中,该模型帮助企业延迟下降60%,成本降低70%。对部署数万终端的大型企业,这意味着每年节省数千万元计算成本。

同时亮相的全模态向量化模型Seed1.6-Embedding首次实现“文本+图像+视频”混合模态融合检索。在权威测评中,该模型包揽多模态全面任务及中文文本的最优成绩,为企业构建新一代多模态知识库提供核心引擎。

三、加速Agent开发开源生态与效率革命

模型能力的释放依赖开发工具和基础设施。火山引擎此次在AI云原生服务端发力,构建了从开发到部署的全栈解决方案。

7月26日,AI Agent开发平台扣子核心能力正式开源,成为开发者社区热议焦点。开源项目包括:

  • Coze Studio:一站式可视化Agent开发工具
  • Coze Loop:全链路管理工具

采用Apache 2.0许可证开源仅三天,Coze Studio在GitHub星标数破万,Coze Loop超3000星标。开发者可在火山引擎云基础产品上一键拉起资源完成部署,大幅降低Agent开发门槛。

对于有模型定制需求的企业,火山引擎推出企业自有模型托管方案。企业无需运维底层GPU资源及复杂配置,实现自研模型全托管,享受弹性算力,精准控制时延,且无需为业务低谷期付费。

传统Agent开发需要460行代码,耗时1-2天,现在缩减至60行代码,1小时内完成。”其极大的提升了开发效率。

另外火山引擎也为Coze开源版提供了全面支持。企业AI平台产品HiAgent,可调用Coze开源版提供的智能体搭建和运维能力,并通过共享Agent标准,支持扣子开源版智能体的纳管。

火山引擎的云基础产品,也将为扣子开源版提供高效、稳定、可靠的基础设施支持,开发者可以一键拉起资源,完成部署。

结语:

火山引擎此次以模型能力突破、开发效率革命、开源生态共建三位一体的战略级发布,标志着AI技术落地进入全新阶段。图像编辑与同传模型的进化不仅解决了垂直场景的核心痛点,更通过Responses API实现7倍开发效率跃升,配合扣子平台开源及企业模型托管方案,构建了覆盖“模型-工具-部署”的完整产业闭环。