马斯克在Grok 4发布会上自豪宣布,该AI模型已全面达到博士后水平
近日,科技界的焦点无疑聚焦在了Grok 4的发布会上。特斯拉和SpaceX的创始人埃隆·马斯克亲自亮相,骄傲地宣布Grok 4在所有学科领域都达到了博士后水平,甚至预言它能在今年内实现科学新发现。这一震撼性声明立即引发了全球网友的浓厚兴趣,尽管Grok 4价格不菲,但仍有许多网友愿意花费重金来体验这一前沿科技。
博主Alex Prompter对Grok 4与OpenAI o3进行对比测试
为了探究Grok 4的真实实力,知名博主Alex Prompter进行了一系列对比测试,将Grok 4与OpenAI的o3模型进行了直接较量。测试涵盖了物理模拟、越狱攻击、逻辑推理、翻译等多个方面。在物理模拟测试中,Alex通过创建一个在旋转六边形内反弹的小球来检验AI对重力、碰撞等物理规律的理解能力。他发现,当任务要求从零开始发明和实现一个物理引擎时,Grok 4的表现明显优于允许使用现成物理引擎库的o3。
Grok 4在越狱攻击测试中同样表现出色
在越狱攻击测试中,Alex通过提示词注入、身份探测、角色扮演注入和白色隐藏注入等多种手段来检验AI的安全性。结果显示,Grok 4在这些测试中均表现稳健,没有泄露内部元数据或受到恶意指令的影响。相比之下,o3在某些测试中出现了安全漏洞。
Grok 4在逻辑推理和法律逻辑测试中同样占据上风
在逻辑推理和法律逻辑测试中,Alex设计了一个关于公司收购和债务违约的复杂场景,要求AI解释所有法律和财务后果。Grok 4不仅准确理解了问题的核心,还提供了详尽且条理清晰的答案,而o3则在这一测试中败下阵来。
网友利用Grok 4创作多样内容
除了专业测试外,网友们还纷纷利用Grok 4进行各种创意尝试。有网友使用Grok 4制作了一款经典的“Flappy Bird”游戏,并通过简单的提示词不断优化游戏的图形效果。还有网友利用Grok 4创建了黑洞的交互式3D模拟和可视化,以及可视化欧拉恒等式的交互式工具,这些作品都展示了Grok 4在教育领域的巨大潜力。
尽管表现出色,Grok 4也存在翻车时刻
尽管Grok 4在多项测试中表现出色,但网友们在实际使用中还是发现了一些问题。有网友通过六指测试和时钟图测试发现,Grok 4在某些视觉推理任务中仍会出现错误。还有网友尝试让Grok 4创建一个印度地图的SVG文件,但结果却令人大跌眼镜,印度地图的轮廓被画得面目全非。
马斯克对Grok 4的表现持谦虚态度
面对网友们对Grok 4的热烈讨论和测评结果,马斯克表现出了难得的谦虚态度。他在社交媒体上回应称:“相当不错,但仍有改进空间。”这一表态不仅体现了马斯克对科技发展的严谨态度,也激励着科研人员继续努力提升AI模型的性能。