精选· 重要性 4/5

空间功能智能基准：评估多模态大模型从位置到用途的推理能力

Apple Machine Learning Research·大约 1 个月前·约 1 分钟阅读

中文导读

苹果等机构提出SFI-Bench基准，通过1700多个视频问题系统评估多模态大模型在结构化空间推理和功能推理上的表现，揭示当前模型在整合空间记忆与功能知识方面的关键瓶颈。

多模态智能体的真正空间智能超越了低级几何感知，从知道事物在哪里发展到理解它们的用途。虽然现有的基准（例如VSI-Bench）可以有效地评估这个基础几何阶段，但它们无法探索对具身智能至关重要的更高级认知能力。

为了弥合这一差距，我们引入了空间功能智能基准（SFI-Bench），这是一个基于视频的基准，包含从多样化、以自我为中心的室内视频扫描中得出的1700多个问题。SFI-Bench旨在系统地评估高级推理的两个补充维度：（1）结构化空间推理，理解复杂布局并形成连贯的空间表示；

（2）功能推理，推断对象的可供性和上下文相关的效用。它的任务，包括条件计数、多跳关系推理、功能配对和基于知识的故障排除，直接挑战了模型整合感知、记忆和推理的能力。

我们的实验表明，当前的多模态大语言模型（MLLM）一直在努力整合空间记忆与功能和外部知识，突出了一个关键的瓶颈。因此，SFI-Bench提供了一个重要的工具，用于衡量和推动朝着更具认知能力和真正具身的多模态智能体发展。

- † Mila，蒙特利尔大学- ‡ 纽约大学- ** 在Apple工作期间完成的工作

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读