0

0

激发大语言模型空间推理能力:思维可视化提示

WBOY

WBOY

发布时间:2024-04-11 15:10:17

|

1288人浏览过

|

来源于51CTO.COM

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

激发大语言模型空间推理能力:思维可视化提示

大语言模型(llms)在语言理解和各种推理任务中展现出令人印象深刻的性能。然而,它们在人类认知的关键一面——空间推理上,仍然未被充分研究。人类具有通过一种被称为 心灵之眼 的过程创造看不见的物体和行为的心智图像的能力,从而使得对未见世界的想象成为可能。受到这种认知能力的启发,研究人员提出了 “思维可视化”(visualization of thought,vot)。vot旨在通过可视化其推理迹象来引导llms的空间推理,从而引导后续的推理步骤。研究人员将vot应用于多跳空间推理任务,包括自然语言导航、视觉导航以及二维网格世界中的视觉铺设。实验结果表明,vot显著增强了llms的空间推理能力。值得注意的是,vot在这些任务中表现优于现有的多模态大型语言模型(mllms)

引言

近年来,大语言模型(LLMs)在各种与语言相关的任务上取得了显著的表现。尽管它们在数学推理、常识推理以及其他推理任务,如符号推理或逻辑推理等方面取得了成功,但它们在空间推理方面的能力仍未被充分探索。

空间推理是人类认知的基本功能,使我们能够与环境互动。它促进了需要理解和推理物体及其运动之间空间关系的任务。语言模型的空间推理在很大程度上依赖于语言来推理空间信息,而人类的认知能力远远超出了语言推理。人类不仅可以从视觉感知中创建与任务相关的抽象表示,还可以通过心灵之眼想象看不见的场景。这在神经科学、心灵哲学和认知科学领域被称为心智图像的研究课题。建立在这一认知功能之上,人类通过心智图像的操作来促进空间推理,比如导航、心理旋转、心理纸张折叠和心理模拟。图1说明了在导航任务中涉及的人类过程。人类通过创建路径的心智图像来增强其空间意识并指导其决策,利用各种感官输入,如导航指令或地图图像。随后,他们通过心灵之眼模拟路径规划。

激发大语言模型空间推理能力:思维可视化提示

图1:人类可以通过在空间推理过程中创建心智图像来增强他们的空间意识识别并指导决策。同样地,大语言模型(LLMs)可以建立内部心智图像。研究人员提出了VoT,通过可视化他们在每个中间步骤的思维,来引发LLMs的“心灵之眼”,从而促进空间推理。

受到这一认知机制的启发,研究人员推测LLMs具有在心灵之眼中创建和操作心智图像的能力来进行空间推理。正如图1所示,LLMs可能潜在地处理和理解各种格式的空间信息。它们可能能够可视化内部状态,并通过心灵之眼操作这些心智图像,从而引导后续推理步骤以增强空间推理。因此,研究人员提出了 “思维可视化”(VoT) 提示来引发这种能力。该方法通过为LLMs增加一个视觉空间素描板来可视化其推理步骤并指导后续步骤。VoT采用零示范提示,而不是依赖于少量示范或使用CLIP进行文本到图像的可视化。这个选择源自LLMs从基于文本的视觉艺术中获得各种心智图像的能力。

为了评估VoT在空间推理中的有效性,研究人员选择了三个需要LLMs空间意识的任务,包括自然语言导航、视觉导航和视觉铺设。这些任务需要理解空间、方向和几何形状推理。为了模拟人类般的多感官感知,研究人员设计了使用特殊字符作为LLMs视觉导航和视觉铺设任务中丰富输入格式的2D网格世界。在这三个任务中比较了不同的模型(GPT-4、GPT-4V)和提示技术。研究结果显示,VoT提示始终促使LLMs可视化其推理步骤并指导后续步骤。因此,这种方法在相应任务上取得了显著的性能提升。

激发大语言模型空间推理能力:思维可视化提示

图2:不同设置下的导航地图示例,房子的表情符号表示起点,办公室的表情符号表示目的地。

空间推理

空间推理指的是理解和推理物体之间的空间关系、它们的移动和互动的能力。这种技能对于广泛的现实世界应用非常重要,如导航、机器人技术和自动驾驶。这些领域需要基于视觉感知和对空间维度的具体理解进行行动规划。尽管已经开发了几项任务和数据集来探究嵌入在文本中的空间语义,研究工作通常集中在空间术语如何在语言上结构化上。最近,通过将空间术语转换为逻辑形式并采用逻辑编程,在这些基准测试中取得了显著的成就和令人印象深刻的结果。这意味着在这些任务中取得优异成绩并不一定意味着大型语言模型(LLMs)真正理解了空间信息,也不提供它们空间意识的准确衡量标准。空间意识涉及理解空间关系、方向、距离和几何形状,这些都对于在物理世界中进行行动规划至关重要。为了评估LLMs的空间意识和空间推理能力,研究人员选择了一些测试导航和几何推理技能的任务,包括自然语言导航、视觉导航和视觉铺设。

自然语言导航

自然语言导航涉及通过随机漫步浏览底层空间结构,旨在识别先前访问过的位置。这个概念受到先前关于人类认知的研究的启发,其采用了类似于沿着图结构进行随机漫步的方法。这个过程需要理解循环闭合,这对于空间导航至关重要。

Thiings
Thiings

免费的拟物化图标库

下载

激发大语言模型空间推理能力:思维可视化提示

视觉导航

视觉导航任务向LLMs展示了一个合成的二维网格世界,挑战其利用视觉线索进行导航。模型必须生成导航指令,以四个方向(左、右、上、下)移动,从起点到达目的地,同时避开障碍物。这涉及到两个子任务:路线规划和下一步预测,需要进行多跳空间推理,其中前者更为复杂。

激发大语言模型空间推理能力:思维可视化提示

视觉铺设

视觉铺设是一个经典的空间推理挑战。将这个概念扩展到测试LLMs在有限区域内理解、组织和推理形状的能力,从而增强了空间推理技能的评估。任务涉及一个带有未填充单元格和各种多米诺块的矩形,比如由四个对齐的方块组成的I-多米诺块。模型必须选择适当的多米诺块变体,例如选择I-多米诺块的方向,以解决问答谜题。

激发大语言模型空间推理能力:思维可视化提示

激发大语言模型空间推理能力:思维可视化提示

图3:带有掩码多米诺块的视觉铺设示例。该图未显示多米诺块的旋转和镜像变体。

思维可视化提示

考虑到人类在导航等任务中处理空间信息的方式,常常会创建心智图像,如地图,以增强空间意识或模拟移动以指导决策。研究目标是唤起LLMs的空间意识,并通过可视化它们的中间推理步骤来基于实际情况进行推理。

研究人员引入了“思维可视化”(VoT)提示: "在每个推理步骤之后可视化状态"。这种新的空间推理范式旨在以交错的方式生成推理迹象和可视化结果。

激发大语言模型空间推理能力:思维可视化提示

激发大语言模型空间推理能力:思维可视化提示

图4:三个任务中VoT提示的示例,LLM以交错方式生成推理迹象和可视化来跟踪随时间变化的状态。

激发大语言模型空间推理能力:思维可视化提示

论文:https://arxiv.org/pdf/2404.03622.pdf

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2021

2024.08.16

Java编译相关教程合集
Java编译相关教程合集

本专题整合了Java编译相关教程,阅读专题下面的文章了解更多详细内容。

11

2026.01.21

C++多线程相关合集
C++多线程相关合集

本专题整合了C++多线程相关教程,阅读专题下面的的文章了解更多详细内容。

4

2026.01.21

无人机驾驶证报考 uom民用无人机综合管理平台官网
无人机驾驶证报考 uom民用无人机综合管理平台官网

无人机驾驶证(CAAC执照)报考需年满16周岁,初中以上学历,身体健康(矫正视力1.0以上,无严重疾病),且无犯罪记录。个人需通过民航局授权的训练机构报名,经理论(法规、原理)、模拟飞行、实操(GPS/姿态模式)及地面站训练后考试合格,通常15-25天拿证。

16

2026.01.21

Python多线程合集
Python多线程合集

本专题整合了Python多线程相关教程,阅读专题下面的文章了解更多详细内容。

1

2026.01.21

java多线程相关教程合集
java多线程相关教程合集

本专题整合了java多线程相关教程,阅读专题下面的文章了解更多详细内容。

3

2026.01.21

windows激活码分享 windows一键激活教程指南
windows激活码分享 windows一键激活教程指南

Windows 10/11一键激活可以通过PowerShell脚本或KMS工具实现永久或长期激活。最推荐的简便方法是打开PowerShell(管理员),运行 irm https://get.activated.win | iex 脚本,按提示选择数字激活(选项1)。其他方法包括使用HEU KMS Activator工具进行智能激活。

2

2026.01.21

excel表格操作技巧大全 表格制作excel教程
excel表格操作技巧大全 表格制作excel教程

Excel表格操作的核心技巧在于 熟练使用快捷键、数据处理函数及视图工具,如Ctrl+C/V(复制粘贴)、Alt+=(自动求和)、条件格式、数据验证及数据透视表。掌握这些可大幅提升数据分析与办公效率,实现快速录入、查找、筛选和汇总。

6

2026.01.21

毒蘑菇显卡测试网站入口 毒蘑菇测试官网volumeshader_bm
毒蘑菇显卡测试网站入口 毒蘑菇测试官网volumeshader_bm

毒蘑菇VOLUMESHADER_BM测试网站网址为https://toolwa.com/vsbm/,该平台基于WebGL技术通过渲染高复杂度三维分形图形评估设备图形处理能力,用户可通过拖动彩色物体观察画面流畅度判断GPU与CPU协同性能;测试兼容多种设备,但中低端手机易卡顿或崩溃,高端机型可能因发热降频影响表现,桌面端需启用独立显卡并使用支持WebGL的主流浏览器以确保准确结果

23

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 4万人学习

C 教程
C 教程

共75课时 | 4.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号