您当前位置: 首页 ·资讯管理 · 正文

首款全模态理解模型——豆包Seed 2.0 Lite完成升级,具备看懂、听懂的能力!

发布时间:2026-05-11 12:07:03

今日,火山引擎宣布,Doubao-Seed-2.0-lite已完成新版本升级,该模型是豆包大模型家族中首款具备全模态理解能力的模型。

据介绍,全新版本的Doubao-Seed-2.0-lite实现了对视频、图像、音频、文本的原生统一理解,同时Agent、Coding与GUI能力也得到同步升级,能够进一步面向复杂业务场景提升多模态推理能力。

在视觉理解方面,Doubao-Seed-2.0-lite继续大幅提升,在物理HiPhO、医疗MedXpertQA等高阶学科推理任务上,新版本表现已大幅超越今年2月发布的Doubao-Seed-2.0-pro。

同时,该模型在细粒度感知BabyVision、WorldVQA,以及具身理解ERQA等关键领域达到SOTA水平,更适合企业在高价值场景中进行规模化部署。

此次升级的一大重点是融入语音理解能力,新版本可同时理解多种输入模态,并完成跨模态联合推理,能够直接处理那些必须“音画结合”才能判断的复杂业务需求。

例如在视频理解场景下,Doubao-Seed-2.0-lite可以联合分析视频画面与音频信息,精准判断视频中的视听一致性,也就是“看到的”和“听到的”是否匹配。

它还支持根据自然语言指令,在视频中精准定位特定事件发生的时间点,并能跨越多个时间段提取关键线索,持续追踪人物与事件发展,基于画面进行多步逻辑推理,还原事件关系与行为脉络。

音频能力方面,新模型支持19个语种的精准语音转写,以及中英文与其他14个语种互译。

此外,它还能捕捉语音中的情绪变化、环境背景声与音乐细节,输出更完整、更接近人类认知的语义信息。

根据公开评测集,Doubao-Seed-2.0-lite在语音识别、翻译等多项音频理解基准上优于Gemini-3.1-Pro。

值得一提的是,Doubao-Seed-2.0-lite还与OpenClaw、Hermes Agent等框架进行了深度适配,以此强化深度搜索能力和Skill动态调用功能,能够在任务执行过程中不断积累经验,从而达成“越用越聪明”的效果。

热门游戏
精选攻略
查看更多 +
火爆手游榜
  1. 1 地狱天堂特技赛车

    地狱天堂特技赛车

    2026-05-11更新
    查看
  2. 2 海岛生存99天

    海岛生存99天

    2026-05-11更新
    查看
  3. 3 玩具兵

    玩具兵

    2026-05-11更新
    查看
  4. 4 向我开火

    向我开火

    2026-05-11更新
    查看
  5. 5 音乐杀手模拟器

    音乐杀手模拟器

    2026-05-11更新
    查看
  6. 6 字母人

    字母人

    2026-05-11更新
    查看
  7. 7 hades

    hades

    2026-05-11更新
    查看
  8. 8 机械战争

    机械战争

    2026-05-11更新
    查看
  9. 9 动物进化之旅

    动物进化之旅

    2026-05-11更新
    查看
  10. 10 饥荒哈姆雷特版

    饥荒哈姆雷特版

    2026-05-11更新
    查看
专题推荐
更多