0

0

将图像自动文本化,图像描述质量更高、更准确了

WBOY

WBOY

发布时间:2024-06-28 20:43:01

|

1135人浏览过

|

来源于机器之心

转载

将图像自动文本化,图像描述质量更高、更准确了
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

皮仁杰:香港科技大学博士三年级学生,师从张潼教授和周晓方教授。于 2024 年获得苹果奖学金。目前主要研究方向是多模态大语言模型和数据为中心的 ai。

张鉴殊:武汉大学本科三年级学生,目前在张潼教授的指导下担任研究实习生,主要研究方向是大语言模型,多模态大语言模型以及持续学习。当下在寻找 2025 fall 博士入学机会。

在当今的多模态大模型的发展中,模型的性能和训练数据的质量关系十分紧密,可以说是 “数据赋予了模型的绝大多数能力”。

在这其中,图像 - 文本数据集发挥着至关重要的作用,在图像理解、文本生成和图像检索等多个领域发挥着关键作用。

然而,现有的图像描述数据集主要来源于网络抓取和人工标注,存在着质量参差不齐、细节缺失、描述噪音多等问题。尽管人类可以为图像提供详细的描述,但高昂的标注成本限制了其规模和可行性。因此,迫切需要一种高效、可扩展的方法来生成准确且详细的图像描述。

为了应对上述挑战,来自香港科技大学、武汉大学、浙江大学、UIUC的研究者联合提出了一种创新的自动化框架 ——Image-Textualization(IT),该框架通过整合多模态大语言模型(MLLMs)和多种视觉专家模型的协作,将图片信息进行文本化,最后利用拥有强大的推理能力的纯文本大语言模型将这些文本化的信息转化为高质量的图像描述。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

将图像自动文本化,图像描述质量更高、更准确了

  • 论文:Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions

  • 论文地址:https://arxiv.org/pdf/2406.07502v1

  • 项目地址:https://github.com/sterzhang/image-textualization/

将图像自动文本化,图像描述质量更高、更准确了

                                利用多模态模型造的图片描述 vs 利用 IT 生成的图片描述

总的来说,本文贡献包括:

  • 创新框架:我们提出了图像文本化框架,利用多模态大模型的的粗粒度图像理解能力,视觉专家模型的精细感知能力,以及纯文本大语言的模型的推理能力去自动生成细节丰富且语言表达清晰的图像描述。

  • 评估基准与实验:提出了多个评估细节丰富的图片描述的基准,通过广泛的实验验证了框架的有效性。

  • 数据集与代码发布:利用我们的图像文本化框架,我们生成了一个大规模高质量的图像描述数据集(IT-170K)。为了促进未来的研究,我们已将所有源代码和生成的数据集公开发布。

将图像自动文本化,图像描述质量更高、更准确了

Image Textualization 方法

Image-Textualization(IT)框架包括以下三个阶段:

1. 粗粒度的图片文本化(Holistic Textualization):首先利用多模态大语言模型对图片生成参考描述,尽管这些描述可能存在细节缺失和幻觉,但它们为图像的视觉信息和语言表达提供了基本结构。这里视觉的结构主要体现在参考描述中往往会包含一些大的,核心的物体,这个可以为后续的细节提供类似 “锚点” 的作用,能够使得最后的文本化重述(Textualized Recaptioning)更好的添加细节。另外,语言表达上的结构主要体现在多模态大模型包含的纯文本大语言模型使得其拥有较强的语言能力,这使得这里生成的参考描述能够在语言上有良好的组织,比如会先说出这个图片大概描述了些什么,然后展开细节,最后总结,这种描述风格较为偏向人类的偏好。这也能够使得最后的文本化重述(Textualized Recaptioning)能够在一个语言能力较好的模板上进行加工。

2. 视觉细节文本化(Visual Detail Textualization):这个阶段我们同时从图片端和文本端进行细节的提取。

讯飞智作-虚拟主播
讯飞智作-虚拟主播

讯飞智作是一款集AI配音、虚拟人视频生成、PPT生成视频、虚拟人定制等多功能的AI音视频生产平台。已广泛应用于媒体、教育、短视频等领域。

下载

首先是文本端,由于在上一阶段中我们利用多模态大模型生成的参考描述可能含有幻觉,所以这里首先做的是 “幻觉检测”。我们首先利用 LLM 去抓取参考描述中含有的实体,再利用了一个开集检测器去图片里对这个实体进行匹配,如果没有被检测出来,则将这个实体判断为幻觉。这里我们把检测出来的幻觉也进行了文本化,在最后的文本化重述(Textualized Recaptioning)进行删除。

将图像自动文本化,图像描述质量更高、更准确了

在视觉端,我们利用在高分辨率图片上训练出来的各个任务上的视觉专家模型提取图像中的细节信息。想要将一个图片上的物体的细节信息利用文本表达出来仅仅用物体的 caption 是不够的,我们首先利用提取这些物体的 bounding box 来把这些物体的左右关系给用文本的方式体现出来。但图片中的物体不仅仅有左右信息,还有前后信息。对此,我们首先利用分割模型将这些物体的 mask 给提取出来,再将原本的图片转化为深度图,通过计算深度图中特定物体 mask 对应的深度分数来将深度信息由文本体现出来。至此,我们能利用文本还原出图片中各个物体的大小,左右位置,前后关系等细节信息。

将图像自动文本化,图像描述质量更高、更准确了

3. 文本化重述(Textualized Recaptioning):结合前两个阶段的图片信息文本化的结果,加上我们通过精心设计的改写 prompt,纯文本的大语言模型能够很好的通过纯文本还原出图片的信息,并通过强大理解和推理能力生成详细且准确的图像描述。

全面评估与实验验证

为了验证我们框架的有效性,我们构建了三个评估基准,分别是 DID-Bench(详细图像描述基准)、D2I-Bench(描述到图像基准)和 LIN-Bench(语言基准)。我们进行了广泛的实验,结果表明 IT 框架生成的图像描述在细节丰富度和准确性方面显著优于现有方法。尤其是,通过我们的 IT 框架生成的数据集训练的 MLLMs,如 LLaVA-7B,展现出了更强的图像描述能力,减少了幻觉现象。

DID-Bench(详细图像描述基准):用于评估图片描述和人类手动标的详细的图片描述的相似性。可以看到我们的修改后的 IT-{LLaVA} 和 IT-{GPT4-V} 图片描述都比修改前的要更详细和准确,更贴合人类标注出来的描述。

将图像自动文本化,图像描述质量更高、更准确了

D2I-Bench(描述到图像基准):利用文生图模型将生成的描述转化为图片,和原图进行相似度的对比,这里我们选取了 CLIP-score 和 DINO-score 进行评估,都能达到更高的分数。

将图像自动文本化,图像描述质量更高、更准确了

将图像自动文本化,图像描述质量更高、更准确了

另外我们还在 POPE 和 LIN-Bench 上验证了利用我们框架生成数据进行训练的 LLaVA-7B 能够在生成描述更详细更复杂的情况下(表右侧 LIN-Bench),还能降低幻觉(表左侧 POPE 基准)。

将图像自动文本化,图像描述质量更高、更准确了

最后,我们对生成出的数据进行了统计上的对比,可以看到我们修改后的描述中各个词性的数量上都能有较大的提升。

将图像自动文本化,图像描述质量更高、更准确了

未来展望

我们的工作不仅解决了现有图像描述数据集的局限性,也为设计更高效、可扩展的方法提供了灵感。我们期待 IT 框架在更多应用领域中展示其潜力,推动图像理解和生成技术的进一步发展。

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1991

2024.08.16

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

30

2025.12.13

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

11

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

73

2026.01.18

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

109

2026.01.16

全民K歌得高分教程大全
全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总,阅读专题下面的文章了解更多详细内容。

152

2026.01.16

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

79

2026.01.16

java数据库连接教程大全
java数据库连接教程大全

本专题整合了java数据库连接相关教程,阅读专题下面的文章了解更多详细内容。

44

2026.01.15

Java音频处理教程汇总
Java音频处理教程汇总

本专题整合了java音频处理教程大全,阅读专题下面的文章了解更多详细内容。

20

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 5万人学习

Node.js 教程
Node.js 教程

共57课时 | 8.9万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号