阿里巴巴(BABA.US)近日宣布推出世界模型产品HappyOyster,这款基于原生多模态架构的生成式AI系统,在音视频联合生成领域实现突破性进展。该产品由阿里ATH创新事业部研发团队打造,与旗下另一项目HappyHorse共享核心技术团队,标志着中国科技企业在前沿模型领域的持续探索。
与传统文生视频模型依赖提示词输入的被动生成模式不同,HappyOyster采用长时序世界演化建模技术,通过融合文本指令、动作轨迹和图像信号等多维度控制参数,主动模拟物理空间与因果关系演变。这种技术路径与谷歌Genie3同属世界模拟器流派,在生成质量、时序连贯性和内容可控性之间实现协同优化。
产品核心功能包含"漫游"与"导演"双模式:漫游模式支持用户进行长达1分钟的连续位移操作和镜头控制,生成画面保持高分辨率与风格一致性;导演模式则突破性地实现3分钟以上480p/720p实时生成,允许在任意时间节点通过多模态指令修改剧情走向或调整角色行为。目前两种模式尚未完全融合,但开发团队透露未来将向"探索-创作"一体化方向迭代。
该模型在应用场景测试中展现出显著优势:游戏行业可降低30%以上的场景构建成本,影视制作周期缩短40%,文旅领域实现虚拟场景的实时交互升级,教育领域则通过动态模拟提升教学沉浸感。技术团队特别强调,通过空间物理引擎与因果推理模块的深度耦合,系统能准确呈现物体碰撞、光影变化等复杂物理现象。
据技术白皮书披露,HappyOyster的架构创新体现在三方面:一是构建了跨模态的统一表征空间,实现文本、图像、动作的语义对齐;二是开发了动态时序编码器,可处理长达10分钟的连续交互数据;三是引入物理约束模块,确保生成内容符合现实世界规律。目前该模型已在GitHub开源部分基础组件,供开发者进行二次开发。













