近日,一份详尽的电商选购类任务测试报告出炉,聚焦于2025年四大主流AI工具——OpenAI Agent、Perp Comet、Manus、Genspark在电商购物领域的实战表现。这份51页的报告通过五大典型购物场景,深入剖析了这些AI工具作为“智能导购”的潜力与局限。
报告首先概述了四大AI工具在速度与成功率上的较量。在亚马逊商品复购、最快发货自行车查找、聚会杂物采购、指定预算风衣选购、特定条件冰箱挑选等五项任务中,Perp Comet以平均318秒的耗时领先,且五项任务全部成功完成,展现了其高效与稳定性。相比之下,OpenAI Agent耗时最长,达到1193秒,且在两项任务中遭遇失败。Genspark同样五项任务成功,但耗时较长;而Manus虽有两项成功,但在复杂任务中表现欠佳。
在具体场景实测中,各AI工具的“购物技能”各有千秋。在查找最快发货自行车时,Perp Comet的信息整合能力尤为突出,20秒内即完成关键信息提取与排序。而在聚会杂物采购中,Perp Comet同样迅速,4分钟内完成9件物品的筛选与加购,体现了其高效与主动性。Genspark则在风衣选购任务中表现出色,不仅快速筛选出符合条件的商品,还提供了详细的材质与细节标注。
在特定条件冰箱选购这一复杂任务中,Genspark凭借其广泛的信息收集与用户评价参考能力,成为唯一完全成功者。它不仅能从多个平台收集评测信息,还能按要求在电商网站完成加购操作,展现了其从信息到行动的全面转化能力。
报告还从能力梯度的角度对四大AI工具进行了评估。在前六级能力中,四大工具表现均衡,都能准确识别用户购物目标并进行基础信息筛选。然而,在高阶能力上,差异显著。Perp Comet在购物车操作与订单预处理环节表现出色,且被认为在支付完成环节有大概率成功,显示了其在涉及资金交易环节上的技术优势。
用户体验方面,四大AI工具的定位与特点各异。Perp Comet因其自主判断能力与流程衔接自然,被用户评价为“能力最强”。Genspark则需更多用户指导,若能简化操作步骤,将进一步提升用户体验。OpenAI Agent虽具备完整加购与地址填写能力,但耗时过长,在快节奏购物场景中略显不足。而Manus则更偏向于“方案提供者”,给出详细购物清单与对比,但无法深入实际操作。
此次测试报告不仅揭示了当前AI在电商购物领域的真实表现,也为未来AI导购的发展提供了有益参考。随着技术的不断进步,AI导购将更加智能化、个性化,为用户带来更加便捷、高效的购物体验。