行业资讯

GPT-4o 拼乐高仅 57.7% 准确率!首个多模态空间推理基准发布,人类专家正确率超 93%
时间: 2025-04-23 12:56:51 浏览次数:28
2025 年 4 月 23 日,上海人工智能实验室联合清华大学、同济大学发布了全球首个聚焦多步空间推理的基准数据集 LEGO-Puzzles。该研究以乐高拼搭为载体,系统性测评了 20 余个主流多模态大模型(MLLMs)在三维空间理解、序列操作推理等复杂任务中的表现。实验发现,即便性能领先的 GPT-4o 模型平均准确率仅 57.7%,而人类专家在同类任务中正确率超过 93%,揭示出当前 AI 在空间推理能力上与人类存在显著认知差距。

2025 年 4 月 23 日,上海人工智能实验室联合清华大学、同济大学发布了全球首个聚焦多步空间推理的基准数据集 LEGO-Puzzles。该研究以乐高拼搭为载体,系统性测评了 20 余个主流多模态大模型(MLLMs)在三维空间理解、序列操作推理等复杂任务中的表现。实验发现,即便性能领先的 GPT-4o 模型平均准确率仅 57.7%,而人类专家在同类任务中正确率超过 93%,揭示出当前 AI 在空间推理能力上与人类存在显著认知差距。

一、乐高为何成为 AI 空间推理的 "试金石"?

研究团队选择乐高作为评测载体,源于其独特的结构化优势:

  • 规则化空间变化:每一步拼搭包含明确的组件位置、旋转角度和邻接关系变化,便于量化评估
  • 可控任务序列:基于 Bricklink 开源项目生成 1100 + 测试样本,覆盖 11 类任务类型,支持视觉问答与图像生成两种形式
  • 去背景干扰:标准化积木组件避免现实场景的复杂纹理干扰,专注空间结构理解
  • 基准任务设计遵循人类认知流程,从基础空间理解(判断高矮、邻接关系)到单步推理(识别下一步组件),再到多步推理(还原装配顺序、检测异常步骤),形成渐进式难度体系。例如 "Ordering" 任务要求模型根据中间状态还原正确装配顺序,"Outlier" 任务则需要识别不符合流程的错误步骤。

二、闭源模型领跑,开源产品差距显著

在视觉问答(VQA)任务中,2025 年 3 月版本的 GPT-4o 以 57.7% 的综合得分位居第一,主要得益于其在单步推理任务 "Dependency"(依赖关系识别)中 87% 的高分表现。谷歌 Gemini-2.0-Flash 以 54% 紧随其后,尤其在 "Adjacency"(邻接关系)任务中达到 70% 准确率,显示出较强的空间关联理解能力。

然而开源模型表现普遍低迷:

  • 最佳开源模型 Qwen2.5-VL-72B 仅 46.6%,其余多数在 30%-40% 区间
  • "Ordering" 任务中 4 个开源模型准确率为 0,"Height" 任务中半数模型低于随机猜测水平
  • 三维旋转推理(Rotation)任务平均落后闭源模型 20 个百分点
  • 这种能力断层在多步推理场景中尤为明显:当需要还原 4 步以上装配序列时,除 GPT-4o 在 k=2 时勉强达到 25% 外,多数模型准确率跌破 10%,暴露了开源模型在长链条空间逻辑处理上的根本缺陷。

三、图像生成:AI 的 "空间想象力" 灾难现场

在要求生成指定视角或操作后的乐高图像任务中,模型表现堪称 "惨不忍睹":

  • GPT-4o 在 "顺时针旋转 60 度" 生成任务中,结构还原度仅 0.95 分(满分 5 分),常出现组件错位或角度偏差
  • 开源模型 Emu2 虽能保持外观相似度,但完全忽略旋转、位置变化等操作指令,IF(指令遵循度)得分普遍为 0
  • 唯一表现尚可的 Gemini-2.0-Flash 在 "多视角生成" 任务中,也仅能达到 1.8 分的结构保真度
  • 值得注意的是,所有模型在生成复杂装配步骤时,均无法正确呈现组件间的连接关系,反映出从视觉理解到空间构建的能力断层。

四、人类 vs AI:空间推理能力存在代差

通过邀请 30 位具备机械工程、计算机视觉背景的专家参与测试,研究团队发现人类在关键指标上展现碾压优势:

  • 基础空间理解任务平均正确率超 90%,其中 "多视角识别" 达 100%
  • 多步推理任务中,"装配顺序还原" 和 "异常步骤检测" 均保持 95% 以上准确率
  • 图像生成环节,人类能够根据描述精确绘制指定视角的三维结构,而 AI 生成结果常出现维度错乱
  • 对比显示,GPT-4o 在 "邻接关系" 和 "单步组件识别" 等基础任务上可达人类 70% 水平,但在需要动态状态记忆的多步推理中,仅能达到人类 60% 的表现,尤其在 "逆向步骤推导" 任务中差距扩大至 40 个百分点。

五、行业影响与未来方向

这项研究为多模态 AI 的发展提出了清晰的能力短板:

  1. 三维空间表征:现有模型缺乏对物体空间方位、相对位置的精准建模能力
  2. 长程推理记忆:在超过 3 步的连续操作中,难以维持连贯的状态表征
  3. 指令执行落地:从理解空间操作到生成视觉结果的跨模态转换存在显著瓶颈
  4. 这些发现对依赖空间推理的关键领域具有重要参考价值:
  • 机器人装配:当前 AI 难以胜任复杂机械部件的多步组装规划
  • 自动驾驶:在动态场景的路径规划和障碍物空间关系判断中存在安全隐患
  • 教育辅助:无法有效模拟三维教具的拆解与重组过程
  • 研究团队已将 LEGO-Puzzles 集成至 VLMEvalKit 评测工具,支持开发者快速定位模型的空间推理短板。随着多模态技术向具身智能(Embodied AI)演进,如何突破空间认知瓶颈,将成为下阶段研究的核心课题。

结语:从 "看图说话" 到 "空间思考" 的鸿沟

当 GPT-4o 能准确拼合乐高积木时,或许才是真正具备空间智能的起点。当前 AI 在单步识别上已接近人类,但在需要逻辑连贯的多步骤操作中,仍像 "断片" 的新手。这项研究不仅为模型评测提供了全新维度,更警示我们:从感知到认知的跨越,需要在空间表征、序列推理等底层能力上实现突破。或许正如乐高积木的搭建逻辑 —— 真正的智能,始于每一步扎实的空间思考。

@2023 数据恢复急救电话tel:134-1864-6626 XML地图
返回顶部