谷歌近日发布了一项突破性技术——Gemini 2.5 Flash原生音频模型,将AI语音交互推向了全新高度。这项技术不仅实现了实时语音翻译,还能精准捕捉并复刻说话者的语调、节奏和情感,让AI对话更加自然流畅,仿佛与真人交流一般。
想象一下这样的场景:你漫步在异国街头,周围是陌生的语言和嘈杂的环境。一位当地人突然用方言向你问路,语速急促且带着焦虑。过去,你可能需要手忙脚乱地打开翻译软件,等待机械化的语音输出。而现在,只需佩戴耳机,就能立刻听到用母语流畅翻译的问候,甚至能感受到对方急切的情绪。更神奇的是,你的回答也会被自动转换成对方的语言,并保留你的语气和表达方式。这种无缝的跨语言交流体验,正是谷歌最新推出的Gemini 2.5 Flash原生音频模型带来的变革。
与传统语音交互技术不同,Gemini 2.5 Flash原生音频模型跳过了“语音转文字-AI处理-文字转语音”的繁琐流程,直接实现“听-想-说”的无缝衔接。这种原生处理方式不仅大幅提升了响应速度,还能完整保留人类交流中的微妙细节,如语气、停顿和情感。例如,当对方用欢快的语调提问时,翻译后的声音也会充满活力;若对方语气低沉犹豫,回复中也会自然流露出迟疑。这种情感层面的精准传递,在商务谈判或敏感对话中尤为重要。
目前,这项技术的实时语音翻译功能已在美国、墨西哥和印度的安卓设备上开启Beta测试,iOS版本也将陆续推出。其核心优势包括:支持70多种语言和2000多个语言对,覆盖全球主流语言;具备多语言混输能力,可同时处理对话中的多种语言;针对嘈杂环境优化,具备强大的噪声过滤能力;以及独特的风格迁移功能,能完美复刻说话者的情绪和表达方式。双向对话模式可自动识别说话者,无需手动切换,真正实现“无感”翻译。
对于开发者而言,Gemini 2.5 Flash原生音频模型同样带来了重大突破。在函数调用方面,新模型能更精准地获取实时信息,并将数据无缝融入对话,避免打断交流流畅性。在指令遵循测试中,其准确率从84%提升至90%,可更可靠地执行复杂指令。同时,多轮对话能力显著增强,能更有效地记忆上下文,保持对话连贯性和逻辑性。这些提升使得构建企业级AI客服的门槛大幅降低,开发者可轻松创建能听、能说、能办事的智能助手。
除了原生音频模型,谷歌还推出了一项实验性工具——Disco。这款来自Google Labs的产品内置了基于Gemini 3打造的GenTabs功能,可主动理解用户需求,将杂乱的标签页和聊天记录转化为交互式网络应用。例如,用户只需简单描述需求,如“制定周餐计划”或“教孩子认识行星”,Disco就能自动生成专属工具,无需编写代码。目前,macOS版本已开放排队体验,尽管仍处于早期阶段,但已展现出将“浏览”升级为“创造”的潜力。













