DALL-E和Flamingo能相互理解吗？三个预训练SOTA神经网络统一图像和文本

WBOY

发布时间：2023-04-12 16:49:10

1422人浏览过

来源于51CTO.COM

转载

多模态研究的一个重要目标就是提高机器对于图像和文本的理解能力。特别是针对如何在两种模型之间实现有意义的交流，研究者们付出了巨大努力。举例来说，图像描述（image captioning）生成应当能将图像的语义内容转换输出为可被人们理解的连贯文本。相反，文本 - 图像生成模型也可利用文本描述的语义来创建逼真的图像。

这就会带来一些同语义相关的有趣问题：对于给定的图像，哪种文本描述最准确地描述了图像？同样地，对于给定的文本，最有意义的图像实现方式又是哪种？针对第一个问题，一些研究宣称最佳的图像描述应该是既自然且还能还原视觉内容的信息。而对于第二个问题，有意义的图像应该是高质量的、多样性的且忠于文本内容的。

不论怎样，在人类交流的推动下，包含文本 - 图像生成模型及图像 - 文本生成模型的交互任务可以帮助我们选择最准确的图像文本对。

如图 1 所示，在第一个任务中，图像 - 文本模型是信息发送者，文本 - 图像模型是信息接收者。发送者的目标是使用自然语言将图像的内容传达给接收者，以便其理解该语言并重建真实的视觉表征。一旦接收者可以高保真地重建原始图像信息，则表明信息已传递成功。研究者认为这样生成的文本描述即为最优的，通过其产生的图像也最近似于原始图像。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

这一规律受到人们使用语言进行交流的启发。试想如下情形：在一个紧急呼救的场景中，警察通过电话获知车祸的情况和受伤人员的状况。这本质上涉及现场目击者的图像描述过程。警方需要根据语言描述在脑海中重建环境场景，以组织恰当的救援行动。显然，最好的文本描述应该是该场景重建的最佳指南。

第二个任务涉及文本重建：文本 - 图像模型成为信息发送者，图像 - 文本模型则成为信息接收者。一旦两个模型就文本层面上信息内容达成一致，那么用于传达信息的图像媒介即为重现源文本的最优图像。

本文中，来自慕尼黑大学、西门子公司等机构的研究者提出的方法，同智能体间通信紧密相关。语言是智能体之间交换信息的主要方法。可我们如何确定第一个智能体与第二个智能体对什么是猫或什么是狗这样的问题有相同的理解呢？

论文地址：https://arxiv.org/pdf/2212.12249.pdf

小微助手

微信推出的一款专注于提升桌面效率的助手型AI工具

下载

本文所想要探求的想法是让第一个智能体分析图像并生成描述该图像的文本，而后第二个智能体获取该文本并据此来模拟图像。其中，后一个过程可以被认为是一个具象化体现的过程。该研究认为，如果第二个智能体模拟的图像与第一个智能体接收到的输入图像相似（见图 1），则通信成功。

在实验中，该研究使用现成的模型，特别是近期开发的大规模预训练模型。例如，Flamingo 和 BLIP 是图像描述模型，可以基于图像自动生成文本描述。同样地，基于图像 - 文本对所训练的图像生成模型可以理解文本的深层语义并合成高质量的图像，例如 DALL-E 模型和潜在扩散模型 (SD) 即为这种模型。

此外，该研究还利用 CLIP 模型来比较图像或文本。CLIP 是一种视觉语言模型，可将图像和文本对应起来表现在共享的嵌入空间（embedding space）中。该研究使用手动创建的图像文本数据集，例如 COCO 和 NoCaps 来评估生成的文本的质量。图像和文本生成模型具有允许从分布中采样的随机分量，因而可以从一系列候选的文本和图像中选择最佳的。不同的采样方法，包括核采样，均可以被用于图像描述模型，而本文采用核采样作为基础模型，以此来显示本文所使用方法的优越性。

方法概览

本文框架由三个预训练的 SOTA 神经网络组成。第一，图像 - 文本生成模型；第二，文本 - 图像生成模型；第三，由图像编码器和文本编码器组成的多模态表示模型，它可以将图像或文本分别映射到其语义嵌入中。

通过文本描述的图像重建

如图 2 左半部分所示，图像重建任务是使用语言作为指令重建源图像，此过程的效果实现将促使描述源场景的最佳文本生成。首先，源图像 x 被输送到 BLIP 模型以生成多个候选文本 y_k。例如，一只小熊猫在树林中吃树叶。生成的文本候选集合用 C 表示，然后文本 y_k 被发送到 SD 模型以生成图像 x’_k。这里 x’_k 是指基于小熊猫生成的图像。随后，使用 CLIP 图像编码器从源图像和生成的图像中提取语义特征:和。

然后计算这两个嵌入向量之间的余弦相似度，目的是找到候选的文本描述 y_s, 即

其中 s 为最接近源图像的图像索引。

该研究使用 CIDEr（图像描述度量指标）并参照人类注解来评估最佳文本。由于对生成的文本质量感兴趣，该研究将 BLIP 模型设定为输出长度大致相同的文本。这样就能保证进行相对公平的比较，因为文字的长度与可传递图像中信息量的多少呈正相关。在这项工作中，所有模型都会被冻结，不会进行任何微调。

通过图像实现文本重建

图 2 中右侧部分显示了与上一节描述过程的相反过程。BLIP 模型需要在 SD 的引导下猜测源文本，SD 可以访问文本但只能以图像的格式呈现其内容。该过程始于使用 SD 为文本 y 生成候选图像 x_k ，生成的候选图像集用 K 来表示。使用 SD 生成图像会涉及随机采样过程，其中每一次生成过程都可能会以在巨大的像素空间中得到不同的有效图像样本为终点。这种采样多样性会提供一个候选池来为筛选出最佳图像。随后，BLIP 模型为每个采样图像 x_k 生成一个文本描述 y’_k。这里 y’_k 指的是初始文本一只小熊猫在森林里爬行。然后该研究使用 CLIP 文本编码器提取源文本和生成文本的特征，分别用和表示。此任务的目的是寻找匹配文本 y 语义的最佳候选图像 x_s。为此，该研究需要比较生成文本和输入文本之间的距离，然后选择出配对文本距离最小的图像，即

该研究认为图像 x_s 可以最好地描绘出文本描述 y，因为它可以以最小的信息损失将内容传递给接收者。此外，该研究将与文本 y 相对应的图像视为 y 的参考表示（reference presentation），并将最佳图像量化为它与参考图像的接近程度。

实验结果

图 3 中的左侧图表显示了两个数据集上图像重建质量和描述文本质量之间的相关性。对于每个给定图像，重建图像质量（在 x 轴中显示）越好，文本描述质量（在 y 轴中显示的）也越好。

图 3 的右侧图表揭示了恢复的文本质量和生成的图像质量之间的关系：对于每个给定的文本，重建的文本描述（显示在 x 轴上）越好，图像质量（显示在 y 轴上）就越好。

图 4（a）和（b）显示了图像重建质量和基于源图像的平均文本质量之间的关系。图 4（c）和（d）显示了文本距离（text distance）与重建图像质量之间的相关性。

表 1 显示出该研究的采样方法在每个度量标准下都优于核采样，模型的相对增益可以高达 7.7%。

图 5 显示了两个重建任务的定性示例。

OpenClaw部署常见问题_OpenClaw部署故障解答【解答】

Perplexity免费版和Pro版区别_Perplexity付费订阅价值分析教程【对比】

OpenClaw启动时卡在加载界面怎么办_OpenClaw加载卡死常见原因与对策【教程】

OpenClaw最新版与旧版有什么区别_OpenClaw主要版本功能差异对比【汇总】

Perplexity Chrome插件怎么用_Perplexity浏览器扩展一键搜索教程【指南】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：ChatGPT是否构成对网络安全的威胁？人工智能机器人给出了自己的答案下一篇：DevOps 的生成式人工智能：一个现实的视角

作者最新文章

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

微信怎么设置自动发朋友圈微信朋友圈定时托管操作详解

2026-02-03 04:49

2026微信定时发朋友圈教程微信朋友圈延迟发送设置技巧

2026-02-04 08:23

mysql如何获取系统时间_mysql now与sysdate区别

2026-03-02 11:02

mysql如何进行内连接_mysql inner join匹配逻辑

2026-03-06 07:33

mysql如何清空表数据_mysql truncate table性能优势

2026-03-06 10:03

mysql如何进行右连接_mysql right join应用场景

2026-03-14 09:48

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04