近日,在直播界引发轰动的事件莫过于Gemini 2.5 Pro成功通关经典游戏《宝可梦蓝》。这一壮举不仅让网友们沸腾,连谷歌CEO劈柴哥也兴奋地在社交媒体上第一时间宣布了这一喜讯,并分享了通关时刻的珍贵视频。
网友们纷纷赞叹,弹幕满屏皆是“太酷了”!Gemini的自我介绍也因此可以增添一项新荣誉:首位成为宝可梦联盟冠军、登入《宝可梦蓝》名人堂的大模型。这一小步,对于大模型而言,无疑是巨大的飞跃。
回顾历程,一年前,旧版模型Claude 3.5还只能勉强走出新手村,到达常磐森林;而两个月前,Claude 3.7虽然能击败道馆主,但也未能通关。Gemini 2.5 Pro的这次成功,无疑为AI在游戏领域的应用树立了新的里程碑。
直播画面中,Gemini每动一步都显得深思熟虑。左边的文本框里详细展示了Gemini每个行动背后的思考过程。在一次探索华蓝洞穴、寻找和捕获超梦的直播片段中,Gemini在完成了一系列行动后,足足思考了40多秒,消耗了76011个token,才规划出下一步行动。
尽管Gemini已成为联盟冠军,但在宝可梦这款最初主要面向儿童和青少年的游戏中,大模型的表现仍明显不如人类。这主要是因为大模型“视力不佳”,难以解读Game Boy屏幕上低分辨率、像素化的世界。同时,游戏中的二维地图对未经专门训练的大模型而言也极具挑战性。
不过,在游戏中偏文本的部分,大模型此前已有惊艳表现。例如,在宝可梦对战中,当游戏提示电属性宝可梦的攻击对岩石属性对手“效果不佳”时,Claude能迅速理解,并将这些知识整合到自己的战斗策略中。
谷歌此次率先实现新突破,并表示将在这个有趣的挑战中进行更多探索,直播将持续数天。网友们纷纷调侃,以后测试大模型的基准或许要变成谁能更快通关宝可梦了。