今日,火山引擎宣布,Doubao-Seed-2.0-lite已完成新版本升级,该模型是豆包大模型家族中首款具备全模态理解能力的模型。
据介绍,全新版本的Doubao-Seed-2.0-lite实现了对视频、图像、音频、文本的原生统一理解,同时Agent、Coding与GUI能力也得到同步升级,能够进一步面向复杂业务场景提升多模态推理能力。
在视觉理解方面,Doubao-Seed-2.0-lite继续大幅提升,在物理HiPhO、医疗MedXpertQA等高阶学科推理任务上,新版本表现已大幅超越今年2月发布的Doubao-Seed-2.0-pro。
同时,该模型在细粒度感知BabyVision、WorldVQA,以及具身理解ERQA等关键领域达到SOTA水平,更适合企业在高价值场景中进行规模化部署。
此次升级的一大重点是融入语音理解能力,新版本可同时理解多种输入模态,并完成跨模态联合推理,能够直接处理那些必须“音画结合”才能判断的复杂业务需求。
例如在视频理解场景下,Doubao-Seed-2.0-lite可以联合分析视频画面与音频信息,精准判断视频中的视听一致性,也就是“看到的”和“听到的”是否匹配。
它还支持根据自然语言指令,在视频中精准定位特定事件发生的时间点,并能跨越多个时间段提取关键线索,持续追踪人物与事件发展,基于画面进行多步逻辑推理,还原事件关系与行为脉络。
音频能力方面,新模型支持19个语种的精准语音转写,以及中英文与其他14个语种互译。
此外,它还能捕捉语音中的情绪变化、环境背景声与音乐细节,输出更完整、更接近人类认知的语义信息。
根据公开评测集,Doubao-Seed-2.0-lite在语音识别、翻译等多项音频理解基准上优于Gemini-3.1-Pro。
值得一提的是,Doubao-Seed-2.0-lite还与OpenClaw、Hermes Agent等框架进行了深度适配,以此强化深度搜索能力和Skill动态调用功能,能够在任务执行过程中不断积累经验,从而达成“越用越聪明”的效果。
上一篇: 权威《GTA6》舅舅党更新消息!粉丝直呼心脏受不了
下一篇: 暂无
首款全模态理解模型——豆包Seed 2.0 Lite完成升级,具备看懂、听懂的能力!
权威《GTA6》舅舅党更新消息!粉丝直呼心脏受不了
《红色沙漠》疯狂更新的回应来了:韩国人“真”的不用睡觉!
5月底时,《流放之路2》有望拿到Steam Deck的认证资格
索尼旗下新技术重磅登场!地平线RE已应用 效率超神
开放世界动作游戏《Project Madras》由印度团队推出并公布
Switch 2售价上涨 任天堂表示:丰富游戏阵容是信心来源
Steam免费领游戏:开放世界射击新作《生存战场》喜加一