近日,一份关于2025年电商选购类任务测试的专业报告引起了广泛关注。这份报告深入剖析了四款AI工具——OpenAI Agent、Perplexity Comet(简称Perp Comet)、Manus和Genspark在电商购物场景中的实际表现。
该测试报告由郎瀚威及其团队于2025年8月12日完成,详细记录了五项特定购物任务的执行过程与结果。这些任务包括在亚马逊上的商品购买及复购、查找最快发货的自行车、购买聚会所需的一系列杂物、在给定预算内选购风衣,以及根据特定条件购买冰箱。
在平均耗时方面,Perp Comet展现出了显著优势,仅用时318秒便完成了所有任务,而OpenAI Agent则耗时最长,达到了1193秒。从正确/错误比例来看,Perp Comet和Genspark均完美完成任务,未出现任何错误,而OpenAI Agent和Manus则各出现了一次错误。
具体到各项任务中,Perp Comet和Genspark在亚马逊复购任务中表现出色,成功完成了任务。在查找最快发货的自行车任务中,除OpenAI Agent部分成功外,其他工具均成功找到并选购了符合条件的自行车,Perp Comet仅用时20秒便完成了此任务。在购买聚会杂物任务中,除Manus部分成功外,其他工具均成功选购了所需物品。在给定预算选购风衣和指定条件购买冰箱的任务中,四款工具均展现出了一定的能力,但仅Genspark在指定条件购买冰箱任务中完全成功。
在能力梯度评估方面,四款工具在1至7级能力(从意图解析到实时交互)上均达到了预期标准。然而,在8至10级能力(从购物车操作到支付完成)上,Manus在8至9级表现欠佳,而OpenAI Agent、Perp Comet和Genspark则表现良好。特别Perp Comet是唯一一款大概率能完成10级支付操作的工具。
团队成员在测试后普遍表示,Perp Comet在整体效率和全流程操作上表现最为突出,其次是Genspark和OpenAI Agent,而Manus则相对较弱。Perp Comet凭借其高效的购物流程和全面的操作能力赢得了团队的认可。Genspark在信息整合和执行细节上的优势也值得称赞,而OpenAI Agent虽然能够完成部分操作,但耗时较长。相比之下,Manus则更多地停留在方案提供阶段,缺乏实际的购买操作能力。
报告还详细分析了各工具的流量情况及更新时间线等内容,全面展示了这些AI工具在电商购物领域的综合能力和特点,为未来的AI电商应用提供了宝贵的参考和启示。