时事快闻

阿里云多模态交互套件登场，为AI眼镜、机器人等硬件开启智能交互新篇

时间：2026-01-09 01:06 来源：快讯作者：智东西

在阿里云通义智能硬件展上，一款全新的多模态交互开发套件正式亮相。这款开发套件整合了千问、万相、百聆三款通义基础大模型，并预置了十多款适用于生活休闲、工作效率等领域的Agent和MCP工具，为AI硬件的开发带来了新的可能性。

该开发套件不仅具备听觉和视觉能力，还能进行思考并与物理世界进行交互。其应用范围广泛，可覆盖AI眼镜、学习机、陪伴玩具以及智能机器人等多种硬件设备。在芯片适配方面，这款套件支持超过30款主流的ARM、RISC-V和MIPS架构终端芯片平台，为硬件设备的快速接入提供了便利。未来，通义大模型家族还将与玄铁RISC-V架构实现软硬全链路的协同优化，进一步提升推理性能。

在模型优化层面，阿里云针对多模态交互场景进行了深入分析，推出了专为AI硬件交互设计的模型。这些模型支持全双工语音、视频和图文等多种交互方式，端到端语音交互时延可低至1秒，视频交互时延则低至1.5秒。套件预置的Mcp工具和Agent覆盖了生活、工作、娱乐和教育等多个领域。例如，用户可以直接调用出行规划Agent，获取路线规划、旅行攻略以及吃喝玩乐的推荐。

该开发套件还接入了阿里云百炼平台生态，允许用户添加其他开发者提供的Mcp和Agent模板，并通过A2A协议兼容第三方Agent。这一设计极大地扩展了应用的能力边界，帮助企业灵活搭建符合自身需求的业务场景。

在展会现场，阿里云展示了面向智能穿戴设备、陪伴机器人和具身智能等领域的解决方案。以AI眼镜为例，基于千问VL和百聆CosyVoice等模型，阿里云构建了完整的交互链路，包括感知层、规划层、执行层以及长期记忆功能。这使得AI眼镜能够实现同声传译、拍照翻译、多模态备忘录和录音转写等功能，有效解决了交互不自然和回答准确率低的问题。

针对家庭陪伴机器人场景，阿里云的解决方案基于千问模型和多模态交互套件，不仅能够实时监测异常状况并及时推送告警信息，还支持用户通过关键词查找和定位视频，与机器人进行对话交互并控制设备。展会上，多家具身智能厂商如魔法原子、灵心巧手、跨维智能和原力无限等展示了各自的人形机器人、四足机器人和灵巧手产品。其中，人形机器人现场弹钢琴和制作咖啡的表演吸引了大量观众。

阿里云宣布与乐聚机器人达成全栈AI合作。双方将基于阿里云的算力、AI平台和千问模型，共同开展人形机器人训练场合作，并探索基于千问模型的具身智能联合解决方案和产品开发。目前，乐聚新版展厅机器人已接入千问模型，在语音交互、知识库问答和实时对话等场景中表现出更快的响应速度、更准确的答案和更自然的互动体验。

更多>同类天脉资讯

迈从MCHOSE香港电子展大放异彩，创新设计引领全球电竞外设新风潮

04-16

京东发布机器人产业服务全景图，2026年助推品牌销售破百亿并加速场景落地

04-16

百亿量化私募“人才外流”潮起，规模扩张下行业分化加剧？

04-16

宁德时代一季度业绩创新高 300亿设子公司加码新能源矿产布局

04-16

宁德时代一季度业绩创新高拟300亿设子公司深耕新能源矿产

04-16