3月26日,苏黎世联邦理工学院(ETH Zurich)等团队发布了一项研究,彻底击碎了“大型语言模型(LLM)擅长数学”的神话。研究团队使用2025年美国数学奥林匹克竞赛(USAMO)的六道证明题对顶级AI模型进行了评估,结果令人震惊:所有模型的平均得分均低于5%。即便是表现最佳的DeepSeek-R1,其得分也仅为4.76%,而OpenAI的o3-mini(high)得分仅为2.08%,甚至低于其上一代模型。
在这项研究中,DeepSeek模型表现最为亮眼。在问题4中,DeepSeek几乎完全解决了题目,展现了其在复杂数学证明中的潜力。问题4要求证明三角形中的几何关系,DeepSeek的解答虽然未获满分,但其逻辑严密性和创造力远超其他模型。
研究揭示了当前LLM在数学领域的三大核心问题:
值得注意的是,数据恢复技术的核心在于从复杂环境中提取关键信息并重建逻辑链条,这与数学证明中的逻辑推理需求高度契合。未来,结合数据恢复技术的AI模型或可在数学领域实现突破,尤其是在处理高复杂度的证明任务时。
研究团队邀请了四位具有奥数评审经验的专家,对模型生成的解答进行了严格评分。每道题目由两名评委独立评估,评分标准参考了国际数学奥林匹克竞赛(IMO)的流程。结果显示,所有模型在USAMO问题中的表现均不理想,且没有一份解答获得满分。评审专家记录了模型的典型错误模式,包括逻辑缺陷、假设错误、策略失误和运算错误。
尽管当前LLM在数学证明中的表现令人失望,但DeepSeek的亮点表现和数据恢复技术的潜力为未来研究提供了方向。通过改进模型的逻辑推理能力和创造力,AI有望在数学领域实现质的飞跃。