谷歌“纳米香蕉”AI出圈:“用嘴P图”成潮流,国产AI图像生成何时能迎头赶上?

   时间:2025-09-06 14:49 来源:天脉网作者:赵云飞

近日,一款名为“纳米香蕉”的AI图像模型引发全网热议。这款由谷歌推出的Gemini 2.5 Flash Image模型,凭借突破性的图像生成与编辑能力,上线一周内即完成超2亿次图像编辑操作,成为科技圈、设计界和内容创作者争相体验的“现象级工具”。社交媒体上,用户自发创作的使用教程、创意玩法和效果对比图持续刷屏,更有人将其誉为“AI生图新王”“掌管P图的终极神器”。

“纳米香蕉”的核心魅力在于其颠覆性的交互体验。用户无需掌握复杂提示词,仅通过自然语言对话即可完成高精度图像编辑。例如,将一张冬季忧郁人像转为阳光笑脸,或为照片中的人物添加帽子、变换发型,模型均能生成自然逼真的效果。更令人惊叹的是其“照片转手办”功能——用户上传拉丁舞服照片后,模型迅速生成细节高度还原的三维手办模型图,裙摆褶皱、配饰纹理等复杂元素均精准呈现,引发网友“想立刻拥有实体手办”的强烈呼声。

脑洞大开的用户群体进一步拓展了“纳米香蕉”的玩法边界。有人通过跨时空合影功能实现与历史人物的“同框”,有人利用地图生成技术将二维街景转化为三维景观,而“火柴人动作生成”玩法则成为社交平台的新宠:用户上传照片后绘制火柴人动作,模型即可生成逻辑连贯的动态图像,如一人踢腿进攻、另一人蹲防反击的连贯场景,被网友戏称为“AI导演的武打片分镜”。

技术层面,“纳米香蕉”的突破性体现在对物理规则的深度理解。与早期文生视频模型Sora相比,它不再出现“蜡烛未吹即灭”“玻璃未碎水先流”等违背常识的错误。当输入“气球飘向仙人掌”的图像并要求预测后续画面时,模型精准呈现气球炸裂而仙人掌完好的结果,展现出对物理交互的准确判断。谷歌团队透露,这种能力源于Gemini大模型的知识迁移——图像理解能力的提升直接赋能了生成环节。

在图像一致性方面,“纳米香蕉”同样表现卓越。提供一张人物照片后,模型可生成8种表情、多角度视图或三维图像,且人物特征始终保持稳定。连续20次编辑操作中,字符一致性准确率超过95%,支持超100种语言的指令识别,准确率达92%。上海人工智能研究院技术总监方帅指出,这种“所见即所得”的交互模式,正是用户对AI应用的核心期待。

“纳米香蕉”的火爆也催生了新的商业模式。在小红书等平台,用户将创意转化为娃衣、手机壳等实体商品,通过内置店铺完成销售闭环。以15元成本、68元售价的艺术插画手机壳为例,月销100件即可创造可观利润。设计师群体更采用“AI生成+流量测试”模式:先输出海量图片判断市场偏好,再投入实体生产,彻底改变了传统设计流程。

不过,专业领域对AI的应用仍持审慎态度。二次元手办企业APEX-toy创始人马力表示,当前手办平均配件超150个,复杂款型甚至超过300个,AI尚无法精细还原所有细节,“但潮玩设计可能成为早期应用场景”。与此同时,中国科技企业也在加速布局图像生成领域。阶跃星辰副总裁李璟透露,其开源模型Step1X-Edit已具备同类能力,可通过语音指令修改图片元素,如将粽子换成月饼、让人物变老30岁等。

李璟进一步指出,视频与图像类交互产品的技术迭代仍需突破多模态大模型瓶颈。阶跃星辰正探索“理解生成一体化”架构,试图在汽车、手机等智能终端部署工作助手智能体。而“纳米香蕉”团队则明确表示,其目标不仅是提升视觉质量,更要打造能精准理解用户深层意图的AI系统,“甚至超越人类表现”。在这场全球AI竞赛中,先攻克产品功能还是先突破技术架构,已成为行业核心命题。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报