时事快闻

豆包AI大版本升级来袭：从图像到视频春节前夕掀起AI技术新浪潮

时间：2026-02-16 11:29 来源：快讯作者：机器之心Pro

2026年春节，AI领域的竞争进入白热化阶段。字节跳动在火山引擎发布会上宣布，豆包系列模型迎来全面升级，包括豆包大模型2.0、视频创作模型Seedance 2.0和图像创作模型Seedream 5.0 Lite。这一系列动作标志着字节跳动在多模态AI领域发起全面攻势，与海外科技巨头展开正面较量。

作为此次升级的核心产品，豆包大模型2.0实现了多模态理解、企业级Agent能力和推理代码能力的重大突破。该模型特别针对大规模在线部署环境进行优化，在视觉推理、文档解析和复杂指令执行等关键场景中表现突出。技术报告显示，豆包2.0 Pro在MathVista、MathVision等数学推理基准测试中达到行业领先水平，在科学领域整体表现与Gemini 3 Pro和GPT 5.2相当。在视觉感知能力方面，该模型在VLMsAreBiased、BabyVision等基准测试中取得最高分，并在IMO、CMO数学奥赛和ICPC编程竞赛中获得金牌成绩。

视频创作领域，Seedance 2.0的发布引发行业震动。这款尚处于内测阶段的模型已展现出改变行业格局的潜力，其对复杂场景、多人互动和真实运动逻辑的把控能力达到专业水准。推特和B站上涌现出大量用户创作内容，包括用该模型还原1670年新阿姆斯特丹历史场景的作品，连马斯克都评论称"发展速度惊人"。知名导演贾樟柯宣布将采用该技术创作短片，而《黑神话：悟空》制作人冯骥则认为"AIGC的童年时代已经结束"，同时表达了对虚假内容泛滥的担忧。

实际测试显示，Seedance 2.0能将世界上最短的科幻小说《最后一个人》精准影视化。面对仅17个单词的文本提示，该模型生成了10秒高质量短片，通过电影级镜头语言营造出末日氛围和悬念感。在图生视频功能测试中，模型基于宇树机器人参考图生成的视频，在角色一致性、动作连贯性和氛围渲染方面表现优异。字节跳动透露，Seedance 2.0支持混合模态输入，用户可同时提交多张图片、视频和音频素材，模型能综合参考这些元素生成最多15秒的双声道视频。

图像创作领域，Seedream 5.0 Lite的升级同样引人注目。该模型采用多模态理解生成统一架构，能像人类设计师一样洞察用户意图，即使面对简短模糊的描述也能准确推测创作需求。在主体一致性、图文对齐等方面，新版本表现显著提升。特别值得一提的是，模型首次引入实时检索增强能力，可通过联网获取最新知识，精准响应时效性创作需求。测试中，该模型成功生成了符合复杂描述的数字图片，包括"冬季市场中手持热可可的女性"和"夜晚沙滩上篝火旁的朋友群像"等场景。

字节跳动的技术布局远不止于此。在语音领域，公司推出的豆包实时语音大模型实现了端到端语音对话，在语音表现力、控制力和情绪承接方面表现惊艳，支持对话中随时打断和实时调整。具身智能方面，Seed GR-RL强化学习框架让机器人能在真实场景中稳定完成多步骤、高精度操作任务。在AI for Science领域，字节跳动已持续投入五年，围绕生物领域基础模型、量子化学等方向发布了一系列有影响力的学术成果。

更多>同类天脉资讯