时事快闻

谷歌“纳米香蕉”AI出圈：“用嘴P图”成潮流，国产AI图像生成何时能迎头赶上？

时间：2025-09-06 14:49 来源：天脉网作者：赵云飞

近日，一款名为“纳米香蕉”的AI图像模型引发全网热议。这款由谷歌推出的Gemini 2.5 Flash Image模型，凭借突破性的图像生成与编辑能力，上线一周内即完成超2亿次图像编辑操作，成为科技圈、设计界和内容创作者争相体验的“现象级工具”。社交媒体上，用户自发创作的使用教程、创意玩法和效果对比图持续刷屏，更有人将其誉为“AI生图新王”“掌管P图的终极神器”。

“纳米香蕉”的核心魅力在于其颠覆性的交互体验。用户无需掌握复杂提示词，仅通过自然语言对话即可完成高精度图像编辑。例如，将一张冬季忧郁人像转为阳光笑脸，或为照片中的人物添加帽子、变换发型，模型均能生成自然逼真的效果。更令人惊叹的是其“照片转手办”功能——用户上传拉丁舞服照片后，模型迅速生成细节高度还原的三维手办模型图，裙摆褶皱、配饰纹理等复杂元素均精准呈现，引发网友“想立刻拥有实体手办”的强烈呼声。

脑洞大开的用户群体进一步拓展了“纳米香蕉”的玩法边界。有人通过跨时空合影功能实现与历史人物的“同框”，有人利用地图生成技术将二维街景转化为三维景观，而“火柴人动作生成”玩法则成为社交平台的新宠：用户上传照片后绘制火柴人动作，模型即可生成逻辑连贯的动态图像，如一人踢腿进攻、另一人蹲防反击的连贯场景，被网友戏称为“AI导演的武打片分镜”。

技术层面，“纳米香蕉”的突破性体现在对物理规则的深度理解。与早期文生视频模型Sora相比，它不再出现“蜡烛未吹即灭”“玻璃未碎水先流”等违背常识的错误。当输入“气球飘向仙人掌”的图像并要求预测后续画面时，模型精准呈现气球炸裂而仙人掌完好的结果，展现出对物理交互的准确判断。谷歌团队透露，这种能力源于Gemini大模型的知识迁移——图像理解能力的提升直接赋能了生成环节。

在图像一致性方面，“纳米香蕉”同样表现卓越。提供一张人物照片后，模型可生成8种表情、多角度视图或三维图像，且人物特征始终保持稳定。连续20次编辑操作中，字符一致性准确率超过95%，支持超100种语言的指令识别，准确率达92%。上海人工智能研究院技术总监方帅指出，这种“所见即所得”的交互模式，正是用户对AI应用的核心期待。

“纳米香蕉”的火爆也催生了新的商业模式。在小红书等平台，用户将创意转化为娃衣、手机壳等实体商品，通过内置店铺完成销售闭环。以15元成本、68元售价的艺术插画手机壳为例，月销100件即可创造可观利润。设计师群体更采用“AI生成+流量测试”模式：先输出海量图片判断市场偏好，再投入实体生产，彻底改变了传统设计流程。

不过，专业领域对AI的应用仍持审慎态度。二次元手办企业APEX-toy创始人马力表示，当前手办平均配件超150个，复杂款型甚至超过300个，AI尚无法精细还原所有细节，“但潮玩设计可能成为早期应用场景”。与此同时，中国科技企业也在加速布局图像生成领域。阶跃星辰副总裁李璟透露，其开源模型Step1X-Edit已具备同类能力，可通过语音指令修改图片元素，如将粽子换成月饼、让人物变老30岁等。

李璟进一步指出，视频与图像类交互产品的技术迭代仍需突破多模态大模型瓶颈。阶跃星辰正探索“理解生成一体化”架构，试图在汽车、手机等智能终端部署工作助手智能体。而“纳米香蕉”团队则明确表示，其目标不仅是提升视觉质量，更要打造能精准理解用户深层意图的AI系统，“甚至超越人类表现”。在这场全球AI竞赛中，先攻克产品功能还是先突破技术架构，已成为行业核心命题。