小红书联合复旦推出InstanceAssemble:AI绘画精准构图新突破

   时间:2025-12-26 18:03 来源:快讯作者:胡颖

AI绘画领域迎来一项重要技术突破——小红书与复旦大学联合研发的InstanceAssemble方案,成功攻克了布局控制生成(Layout-to-Image)的核心难题。该技术通过创新设计的“实例组装注意力”机制,实现了从简单物体到复杂场景的精准图像生成,相关研究成果已被国际顶级学术会议NeurIPS 2025收录。

布局控制生成技术是AI绘画发展的关键方向,其核心挑战在于如何让模型严格遵循用户指定的空间布局约束。传统方法常面临三大困境:物体位置偏移、语义内容脱节以及计算资源消耗过大。例如在生成包含多个物体的场景时,AI可能将本应出现在左侧的汽车画到右侧,或将描述为“金毛犬”的物体生成其他品种。

新发布的InstanceAssemble技术基于扩散变换器架构,创造性地引入“实例拼装注意力”模块。用户只需提供每个物体的边界框坐标和文字描述,系统就能在对应位置生成符合语义的图像内容。实验数据显示,该技术在处理包含90万个实例的密集布局数据集时,布局对齐精度较现有方法提升42%,语义一致性指标提高37%。

技术团队特别设计了轻量化适配方案,仅需调整约7100万个参数(相当于在Stable Diffusion3-Medium模型上增加3.46%的参数量),即可实现高效迁移学习。当适配Flux.1模型时,额外参数需求更降至0.84%,显著降低了技术落地门槛。这种设计使得中小型研发团队也能快速应用前沿生成技术。

为建立科学的评估体系,研究团队构建了包含5000张高分辨率图像和9万个标注实例的“Denselayout”基准测试集,并提出“布局锚定分数”(LGS)评估指标。该指标通过计算生成图像中物体位置与输入布局的匹配程度,以及语义描述的准确度,为行业提供了量化评估标准。测试表明,即使训练数据仅包含稀疏布局(≤10个实例),InstanceAssemble在密集场景(≥10个实例)中仍能保持稳定性能。

这项突破标志着AI绘画技术从“自由创作”迈向“精准构图”的新阶段。在电商产品展示、建筑效果图生成、游戏场景设计等应用场景中,设计师可通过精确控制物体位置和属性,大幅提升创作效率。目前研究团队正在探索将技术扩展至视频生成领域,未来可能实现动态场景的精准控制。

 
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报