万亿token！史上最大多模态数据集诞生

WBOY

发布时间：2024-07-28 10:10:11

1026人浏览过

来源于机器之心

转载

开源多模态大模型或将开始腾飞。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

万亿token！史上最大多模态数据集诞生

Napkin AI

Napkin AI 可以将您的文本转换为图表、流程图、信息图、思维导图视觉效果，以便快速有效地分享您的想法。

下载

值此 Llama 3.1 占领各大头条之际，又突然冒出了另一个也非常重要的发布 —— 一个规模空前的开源多模态数据集。

对大模型来说，数据集的重要性无需多言，甚至可以说没有大型数据集就不可能有大模型。现在正是多模态大模型（LMM）发展正盛的时候，规模足够大的优质且开源的多模态数据集已经成为该领域的一大「刚需」。

不过，相比于开源的文本数据集，现有的开源多模态数据集都比较小、多样性也不足，并且来源基本都是 HTML 文档 —— 这就限制了数据的广度和多样性。这无疑限制了开源 LMM 的发展，让开源 LMM 与闭源 LMM 之间的差异变得非常大。

近日，华盛顿大学、Salesforce Research 和斯坦福大学等机构的联合团队填补了这一空白，构建了一个万亿 token 级的交织多模态的开源数据集 MINT-1T（Multimodal INTerleaved）。毫无疑问，这是目前最大的开源多模态数据集。

数据集地址：https://github.com/mlfoundations/MINT-1T
论文地址：https://arxiv.org/abs/2406.11271
论文标题：MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

MINT-1T 共包含一万亿文本 token 和三十亿张图像，并且其有 HTML/PDF/ArXiv 等多种不同来源。在 MINT-1T 问世之前，该领域最大的开源数据集是 OBELICS，其包含 1150 亿文本 token 和 3.53 亿张图像，并且来源只有 HTML。图 1 比较了这些数据集。

数据集的构建

首先，该团队从多样化的来源（包括 HTML、PDF、ArXiv）收集了大量多模态数据，图 2 展示了这些不同来源的多模态文档样本。

然后，为了提高数据质量和安全性，他们执行了文本质量过滤、图像过滤、安全过滤（包括去除 NSFW 图像和可识别个人身份的信息）以及去重。图 3 简要展示了这些数据过滤过程。

最终，他们得到的 MINT-1T 数据集包含 9220 亿 HTML token、1060 亿 PDF token 和 90 亿 ArXiv token。值得注意的是，整个数据处理过程耗费了大约 420 万 CPU 小时数。表 1 对比了一些常见的开源或闭源多模态数据集。

模型实验

该团队也实验了使用该数据集训练多模态模型的效果，并与其它数据集进行了比较。

他们使用的模型架构是 Salesforce 的 XGen-MM，评估的则是模型在数据集上学习之后的上下文学习和多图像推理能力。评估基准包括：视觉描述基准（COCO 和 TextCaps）、视觉问答基准（VQAv2、OK-VQA、TextVQA 和 VizWiz）、多图像推理基准（MMMU 和 Mantis-Eval）。

实验结果

在 HTML 文档上训练

该团队首先对比了 MINT-1T 的 HTML 部分与 OBELICS；因为 OBELICS 是之前领先的多模态数据集并且也是基于 HTML 文档，他们基于这两个数据集分别用 100 亿多模态 token 训练了两个模型，并评估了它们的上下文学习性能。

表 2 给出了在常见基准上的 4-shot 和 8-shot 性能。

可以看到，对于 VQA（视觉问答）任务，在 MINT-1T HTML 文档上训练的模型表现优于在 OBELICS 训练的模型，但前者在视觉描述任务上表现更差一些。平均而言，OBELICS 比 MINT-1T (HTML) 略好一点。

添加 PDF 和 ArXiv 文档

之后，该团队又在 MINT-1T 全数据集上进行了测试，即同时包含 HTML、PDF 和 ArXiv 文档。他们通常采样了 100 亿多模态 token，其中 50% 来自 HTML、45% 来自 PDF、5% 来自 ArXiv。

结果同样见表 2，可以看到在 MINT-1T 混合数据上训练的模型在大多数基准上都优于在 OBELICS 和 MINT-1T (HTML) 上训练的模型。

而在更为复杂的多模态推理任务上，如表 3 所示，用 MINT-1T 训练的模型在 MMMU 上优于用 OBELICS 训练的模型，但在 Mantis-Eval 基准上不及后者。

更细粒度的测试和模型架构的影响请参考原论文。

这个超大规模的开源多模态数据集能否成为一系列传奇的起点，最终造就一个类似 Llama 系列模型那样的多模态大模型系列呢？让我们拭目以待吧。

aishort怎么避免重复生成内容_aishort优化输入方式实用技巧【技巧】

PerplexityAI怎么改写已有文章_PerplexityAI文本优化技巧【技巧】

如何提升代码运行的稳定性和效率利用DeepSeek进行自动化回归测试

如何快速掌握复杂的电路仿真设计利用豆包AI进行理论与实践步骤指导

如何零基础学会利用AI进行内容创作利用DeepSeek制定全套学习成长计划

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6632

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

843

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2201

2024.03.01

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4331

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2922

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

234

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板