阿里云多模态交互套件登场,为AI眼镜、机器人等硬件开启智能交互新篇

   时间:2026-01-09 01:06 来源:快讯作者:智东西

在阿里云通义智能硬件展上,一款全新的多模态交互开发套件正式亮相。这款开发套件整合了千问、万相、百聆三款通义基础大模型,并预置了十多款适用于生活休闲、工作效率等领域的Agent和MCP工具,为AI硬件的开发带来了新的可能性。

该开发套件不仅具备听觉和视觉能力,还能进行思考并与物理世界进行交互。其应用范围广泛,可覆盖AI眼镜、学习机、陪伴玩具以及智能机器人等多种硬件设备。在芯片适配方面,这款套件支持超过30款主流的ARM、RISC-V和MIPS架构终端芯片平台,为硬件设备的快速接入提供了便利。未来,通义大模型家族还将与玄铁RISC-V架构实现软硬全链路的协同优化,进一步提升推理性能。

在模型优化层面,阿里云针对多模态交互场景进行了深入分析,推出了专为AI硬件交互设计的模型。这些模型支持全双工语音、视频和图文等多种交互方式,端到端语音交互时延可低至1秒,视频交互时延则低至1.5秒。套件预置的Mcp工具和Agent覆盖了生活、工作、娱乐和教育等多个领域。例如,用户可以直接调用出行规划Agent,获取路线规划、旅行攻略以及吃喝玩乐的推荐。

该开发套件还接入了阿里云百炼平台生态,允许用户添加其他开发者提供的Mcp和Agent模板,并通过A2A协议兼容第三方Agent。这一设计极大地扩展了应用的能力边界,帮助企业灵活搭建符合自身需求的业务场景。

在展会现场,阿里云展示了面向智能穿戴设备、陪伴机器人和具身智能等领域的解决方案。以AI眼镜为例,基于千问VL和百聆CosyVoice等模型,阿里云构建了完整的交互链路,包括感知层、规划层、执行层以及长期记忆功能。这使得AI眼镜能够实现同声传译、拍照翻译、多模态备忘录和录音转写等功能,有效解决了交互不自然和回答准确率低的问题。

针对家庭陪伴机器人场景,阿里云的解决方案基于千问模型和多模态交互套件,不仅能够实时监测异常状况并及时推送告警信息,还支持用户通过关键词查找和定位视频,与机器人进行对话交互并控制设备。展会上,多家具身智能厂商如魔法原子、灵心巧手、跨维智能和原力无限等展示了各自的人形机器人、四足机器人和灵巧手产品。其中,人形机器人现场弹钢琴和制作咖啡的表演吸引了大量观众。

阿里云宣布与乐聚机器人达成全栈AI合作。双方将基于阿里云的算力、AI平台和千问模型,共同开展人形机器人训练场合作,并探索基于千问模型的具身智能联合解决方案和产品开发。目前,乐聚新版展厅机器人已接入千问模型,在语音交互、知识库问答和实时对话等场景中表现出更快的响应速度、更准确的答案和更自然的互动体验。

 
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报