谷歌近期公布的一项研究成果,集中介绍了创新模型SpatialVLM的独特之处。该模型旨在突破性地赋予视觉语言模型空间推理能力,以应对当前此类模型在处理图像场景中目标物体的空间定位、结构关系理解和三维空间推理等复杂问题时所面临的挑战。
尽管现有视觉语言模型已在图像描述生成、视觉问答等应用场景中展现出了卓越的表现,但在深度空间理解与推理层面仍存在显著瓶颈。SpatialVLM的提出,正是为了填补这一研究空白,并推动视觉语言模型在空间智能领域的发展迈上新的台阶。
研究者通过生成大规模的空间视觉问答(VQA)数据集,利用计算机视觉模型提取目标为中心的背景信息,并采用基于模板的方法生成合理的 VQA 数据。经过训练,SpatialVLM表现出令人满意的能力,包括在回答定性和定量空间问题方面的显著提升。
定性空间 VQA 方面,SpatialVLM在人工注释的答案和模型输出自由形式的自然语言中展现了高成功率。在定量空间 VQA 方面,模型在两个指标上表现优越,比基线模型更为出色。
研究者强调了数据的重要性,指出常见数据集的限制是当前视觉语言模型在空间推理上的瓶颈。他们专注于从现实世界数据中提取空间信息,通过生成大规模的空间 VQA 数据集,成功地提高了VLM的一般空间推理能力。
SpatialVLM不仅在视觉领域有应用潜力,还可以作为密集奖励注释器,用于机器人任务的奖励注释。此外,结合大型语言模型,SpatialVLM能够执行链式思维推理,解锁复杂问题的解决能力。
这一研究为视觉语言模型的空间推理能力提供了新的思路,为未来在机器人、图像识别等领域的发展带来了新的可能性。
文明上网,理性发言,共同做网络文明传播者