0

0

NeurIPS23|「读脑术」解码大脑活动重构视觉世界

PHPz

PHPz

发布时间:2024-01-10 14:54:24

|

704人浏览过

|

来源于机器之心

转载

在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑活动中以高分辨率解析出人眼观看到的图像。

在认知神经科学领域,人们意识到人类的感知不仅受到客观刺激的影响,还深受过去的经验所影响。这些因素共同作用,形成了大脑中复杂的活动。因此,解码大脑活动中的视觉信息成为了一项重要的任务。其中,功能性磁共振成像(fmri)作为一种高效的非侵入性技术,在恢复和分析视觉信息,尤其是图像类别方面发挥着关键的作用

然而,由于 fMRI 信号的噪声特性和大脑视觉表征的复杂性,这一任务面临着不小的挑战。针对这一问题,本文提出了一个双阶段 fMRI 表征学习框架,旨在识别并去除大脑活动中的噪声,并专注于解析对视觉重建至关重要的神经激活模式,成功从大脑活动中重建出高分辨率且语义上准确的图像。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

论文链接:https://arxiv.org/abs/2305.17214

项目链接:https://github.com/soinx0629/vis_dec_neurips/

论文中提出的方法基于双重对比学习、跨模态信息交叉及扩散模型,在相关 fMRI 数据集上取得了相对于以往最好模型接近 40% 的评测指标提升,在生成图像的质量、可读性及语义相关性相对于已有方法均有肉眼可感知的提升。该工作有助于理解人脑的视觉感知机制,有益于推动视觉的脑机接口技术的研究。相关代码均已开源。

功能性磁共振成像(fMRI)虽广泛用于解析神经反应,但从其数据中准确重建视觉图像仍具挑战,主要因为 fMRI 数据包含多种来源的噪声,这些噪声可能掩盖神经激活模式,增加解码难度。此外,视觉刺激引发的神经反应过程复杂多阶段,使得 fMRI 信号呈现非线性的复杂叠加,难以逆转并解码。

传统的神经解码方式,例如岭回归,尽管被用于将 fMRI 信号与相应刺激关联,却常常无法有效捕捉刺激和神经反应之间的非线性关系。近期,深度学习技术,如生成对抗网络(GAN)和潜在扩散模型(LDMs),已被采用以更准确地建模这种复杂关系。然而,将视觉相关的大脑活动从噪声中分离出来,并准确进行解码,依然是该领域的主要挑战之一。

为了应对这些挑战,该工作提出了一个双阶段 fMRI 表征学习框架,该方法能够有效识别并去除大脑活动中的噪声,并专注于解析对视觉重建至关重要的神经激活模式。该方法在生成高分辨率及语义准确的图像方面,其 50 分类的 Top-1 准确率超过现有最先进技术 39.34%。

方法概述即为对于一系列步骤或过程的简要描述。它用于解释如何达到特定目标或完成特定任务。方法概述的目的是提供读者或用户一个对整个过程的整体了解,以便他们能够更好地理解和跟随其中的步骤。在方法概述中,通常包括步骤的顺序、所需的材料或工具以及可能遇到的问题或挑战。通过清晰明了地描述方法概述,读者或用户能够更加容易地理解并成功地完成所需的任务

fMRI 表征学习 (FRL)

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

第一阶段:预训练双对比掩模自动编码器 (DC-MAE)

为了在不同人群中区分共有的大脑活动模式和个体噪声,本文引入了 DC-MAE 技术,利用未标记数据对 fMRI 表征进行预训练。DC-MAE 包含一个编码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界和一个解码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界,其中图片以遮蔽的 fMRI 信号为输入,图片 则被训练以预测未遮蔽的 fMRI 信号。所谓的 “双重对比” 是指模型在 fMRI 表征学习中优化对比损失并参与了两个不同的对比过程。

在第一阶段的对比学习中,每个包含 n 个 fMRI 样本 v 的批次中的样本NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界被随机遮蔽两次,生成两个不同的遮蔽版本NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界,作为对比的正样本对。随后,1D 卷积层将这两个版本转换为嵌入式表示,分别输入至 fMRI 编码器图片。解码器图片 接收这些编码的潜在表示,产生预测值NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界。通过 InfoNCE 损失函数计算的第一次对比损失,即交叉对比损失,来优化模型:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

在第二阶段对比学习中,每个未遮蔽的原始图像NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界及其相应的遮蔽图像NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界形成一对天然正样本。这里的NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界代表解码器图片预测出的图像。第二次对比损失,也就是自对比损失,根据以下公式进行计算:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

优化自对比损失NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界能够实现遮蔽重建。无论是NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界还是图片,负样本NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界都来自同一批次的实例。图片图片共同按如下方式优化:NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界,其中超参数NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界用于调节各损失项的权重。

  • 第二阶段:使用跨模态指导进行调整

鉴于fMRI记录的信噪比较低且高度卷积的特性,对于fMRI特征学习器来说,专注于与视觉处理最相关且对重建最有信息价值的大脑激活模式是至关重要的

LobeHub
LobeHub

LobeChat brings you the best user experience of ChatGPT, OLLaMA, Gemini, Claude

下载

在第一阶段预训练后,fMRI 自编码器通过图像辅助进行调整,以实现 fMRI 的重建,第二阶段同样遵循此过程。具体而言,从 n 个样本批次中选择一个样本NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界及其对应的 fMRI 记录的神经反应NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界图片经过分块和随机遮蔽处理,分别转变为NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界图片,然后分别输入到图像编码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界和 fMRI 编码器图片中,生成NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界。为重建 fMRI图片,利用交叉注意力模块将NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界进行合并:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

W 和 b 分别代表相应线性层的权重和偏置。NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界是缩放因子,NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界是键向量的维度。CA 是交叉注意力(cross-attention)的缩写。NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界加上图片后,输入到 fMRI 解码器中以重建图片,得到NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

图像自编码器中也进行了类似的计算,图像编码器图片的输出NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界通过交叉注意力模块NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界图片的输出合并,然后用于解码图像图片,得到NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

通过优化以下损失函数,fMRI 和图像自编码器共同进行训练:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

生成图像时,可以使用潜在扩散模型(LDM)

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

在完成 FRL 第一阶段和第二阶段的训练后,使用 fMRI 特征学习器的编码器图片来驱动一个潜在扩散模型(LDM),从大脑活动生成图像。如图所示,扩散模型包括一个向前的扩散过程和一个逆向去噪过程。向前过程逐渐将图像降解为正态高斯噪声,通过逐渐引入变方差的高斯噪声。

该研究通过从预训练的标签至图像潜在扩散模型(LDM)中提取视觉知识,并利用 fMRI 数据作为条件生成图像。这里采用交叉注意力机制,将 fMRI 信息融入 LDM,遵循稳定扩散研究的建议。为了强化条件信息的作用,这里采用了交叉注意力和时间步条件化的方法。在训练阶段,使用 VQGAN 编码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界和经 FRL 第一和第二阶段训练的 fMRI 编码器图片 处理图像 u 和 fMRI v,并在保持 LDM 不变的情况下微调 fMRI 编码器,损失函数为:NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

其中,NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界是扩散模型的噪声计划。在推理阶段,过程从时间步长 T 的标准高斯噪声开始,LDM 依次遵循逆向过程逐步去除隐藏表征的噪声,条件化在给定的 fMRI 信息上。当到达时间步长零时,使用 VQGAN 解码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界将隐藏表征转换为图像。

实验

重建结果 

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

通过与 DC-LDM、IC-GAN 和 SS-AE 等先前研究的对比,并在 GOD 和 BOLD5000 数据集上的评估中显示,该研究提出的模型在准确率上显著超过这些模型,其中相对于 DC-LDM 和 IC-GAN 分别提高了 39.34% 和 66.7%

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

在 GOD 数据集的其他四名受试者上的评估显示,即使在允许 DC-LDM 在测试集上进行调整的情况下,该研究提出的模型在 50 种方式的 Top-1 分类准确率上也显著优于 DC-LDM,证明了提出的模型在不同受试者大脑活动重建方面的可靠性和优越性。

研究结果显示,使用提出的fMRI表征学习框架和预先训练的LDM,能够更好地重建大脑的视觉活动,远远超过目前的基准水平。这项工作有助于进一步挖掘神经解码模型的潜力

相关专题

更多
硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1027

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

66

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

455

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

11

2026.01.19

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

5

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2000

2024.08.16

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

31

2025.12.13

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

4

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

55

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 9.7万人学习

Node.js 教程
Node.js 教程

共57课时 | 9万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号