时事快闻

AI进化新篇章：从数字对话迈向物理世界“实操”新纪元

时间：2025-11-19 21:00 来源：快讯作者：孙明

当人工智能不仅能解答问题，还能直接操作物理设备完成复杂任务时，人类与机器的交互方式正经历根本性变革。本周，全球科技巨头密集发布新一代AI产品，标志着技术竞争焦点从"对话交互"转向"任务执行"，智能体开始具备直接干预现实世界的能力。

阿里巴巴推出的"千问"APP已突破传统聊天机器人范畴，正在构建覆盖生活全场景的智能中枢。该平台计划整合地图导航、外卖订餐、机票预订等20余个高频服务，用户可通过自然语言完成从需求表达到达成交易的全流程。例如输入"为父母选购适合零下15度的保暖羽绒服，预算1500元"，系统将自动完成商品筛选、比价、尺码匹配及支付操作。测试数据显示，其Qwen3-Max模型在代码生成和复杂推理测试中分别取得69.6分和74.8分，超越国际顶尖竞品。

蚂蚁集团推出的"灵光"平台则开创了轻量化交互新模式。其"闪应用"功能支持用户在30秒内通过对话生成可交互的小程序，一位体验者创建的"人生计时器"将抽象时间概念转化为可视化界面，实时显示已流逝和剩余生命时长。该平台的"灵光开眼"功能具备实时物体识别能力，可识别摄像头捕捉的物品并提供关联信息，这种视觉理解能力使AI首次具备"看懂"现实世界的基础。

谷歌发布的Gemini 3模型将终端操作能力推向新高度。该模型在屏幕理解测试中取得72.7%的准确率，无需专用接口即可操作专业软件和手机设置。在涵盖数学、编程、学术的"人类终极考试"中，其37.5%的得分率领先行业平均水平23个百分点。更引人注目的是，该模型在真实投资环境中实现22.32%的收益率，证明其具备处理不确定性的决策能力。

技术突破背后是多模态理解能力的质变。阿里"千问"的图像搜索功能可识别现实物品并跳转购物页面，谷歌Gemini的屏幕操作能力使其能"看懂"任何软件界面。行业分析师指出，视觉模块的突破相当于为AI安装了"眼睛"，使其能从文本宇宙降落到物理地球。这种能力转变使得"帮我取下书架第三层的蓝色笔记本"这类指令得以真正执行。

生态系统建设成为决定胜负的关键因素。阿里巴巴正构建覆盖电商、出行、支付等场景的超级入口，用户通过单一指令即可完成跨平台任务闭环。蚂蚁集团依托支付宝的金融场景，未来可能实现转账、理财等复杂操作的自然语言交互。谷歌则利用全球化产品矩阵，使AI能力渗透到搜索、邮件、日历等数字生活场景，间接影响物理行为。这种场景密度的竞争，本质上是AI学习进化速度的较量。

当前技术发展仍面临核心挑战：如何在保障安全的前提下，让AI理解复杂多变的现实环境。测试中出现的支付错误、行程规划偏差等问题，暴露出系统在边界条件处理上的不足。但可以预见的是，随着更多生活场景接入，AI将逐步从问答助手进化为具备实操能力的智能伙伴，这场竞赛的最终赢家或将重新定义人机交互标准。

更多>同类天脉资讯

财政部2025年将发行970亿3年期记账式附息国债 11月24日招标

11-20

中航基金“80后”韩浩升副总赛道型基金爆发背后发展引思考

11-20

中金拟换股吸收合并东兴与信达证券助力金融高质量发展

11-20

优必选被Figure CEO质疑量产视频造假，官方回应并详解交付少原因

此外，高盛在其相关报告中称，人形机器人行业存在“产能期货狂欢”，并指出优必选 2024 年人形机器人仅交付 10 台、亏损 11.6亿元。谭旻回应称：“2024 年交付少的主要原因是我们开始进行单机在不同…

11-20