0

0

Yi-VL大模型开源,荣居MMMU、CMMMU榜首

WBOY

WBOY

发布时间:2024-01-22 21:30:21

|

517人浏览过

|

来源于机器之心

转载

1 月 22 日,零一万物 Yi 系列模型家族迎来新成员:Yi Vision Language(Yi-VL)多模态语言大模型正式面向全球开源。据悉,Yi-VL 模型基于 Yi 语言模型开发,包括 Yi-VL-34B 和 Yi-VL-6B 两个版本

Yi-VL 模型开源地址:
  • https://huggingface.co/01-ai
  • https://www.modelscope.cn/organization/01ai

凭借卓越的图文理解和对话生成能力,Yi-VL 模型在英文数据集 MMMU 和中文数据集 CMMMU 上取得了领先成绩,展示了在复杂跨学科任务上的强大实力。

MMMU(全名 Massive Multi-discipline Multi-modal Understanding & Reasoning 大规模多学科多模态理解和推理)数据集包含了 11500 个来自六大核心学科(艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程)的问题,涉及高度异构图像类型和交织文本图像信息,对模型的高级知觉和推理能力提出了极高要求。在该测试集上,Yi-VL-34B 以 41.6% 的准确率表现超越了一系列多模态大模型,仅次于 GPT-4V(55.7%),展现出强大的跨学科知识理解和应用能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

零一万物yi-vl多模态大模型开源,mmmu、cmmmu两大权威榜单领先

零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先

来源:https://mmmu-benchmark.github.io

在针对中文场景打造的 CMMMU 数据集上,Yi-VL 模型展现了「更懂中国人」的独特优势。CMMMU 包含了约 12000 道源自大学考试、测验和教科书的中文多模态问题。其中,GPT-4V 在该测试集上的准确率为 43.7%, Yi-VL-34B 以 36.5% 的准确率紧随其后,在现有的开源多模态模型中处于领先位置。

零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先

零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先

来源:https://cmmmu-benchmark.github.io/

那么,Yi-VL 模型在图文对话等多元场景中的表现如何?

我们先看两个示例:

零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先

艺映AI
艺映AI

艺映AI - 免费AI视频创作工具

下载

零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先

可以看到,基于 Yi 语言模型的强大文本理解能力,只需对图片进行对齐,就可以得到不错的多模态视觉语言模型 —— 这也是 Yi-VL 模型的核心亮点之一。

零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先

Yi-VL 模型架构设计和训练方法流程一览。

架构设计上,Yi-VL 模型基于开源 LLaVA 架构,包含三个主要模块:

  • Vision Transformer(简称 ViT)用于图像编码,使用开源的 OpenClip ViT-H/14 模型初始化可训练参数,通过学习从大规模「图像 - 文本」对中提取特征,使模型具备处理和理解图像的能力。
  • Projection 模块为模型带来了图像特征与文本特征空间对齐的能力。该模块由一个包含层归一化(layer normalizations)的多层感知机(Multilayer Perceptron,简称 MLP)构成。这一设计使得模型可以更有效地融合和处理视觉和文本信息,提高了多模态理解和生成的准确度。
  • Yi-34B-Chat 和 Yi-6B-Chat 大规模语言模型的引入为 Yi-VL 提供了强大的语言理解和生成能力。该部分模型借助先进的自然语言处理技术,能够帮助 Yi-VL 深入理解复杂的语言结构,并生成连贯、相关的文本输出。

训练方法上,Yi-VL 模型的训练过程分为三个精心设计的阶段,旨在全面提升模型的视觉和语言处理能力。

  • 第一阶段:零一万物使用 1 亿张的「图像 - 文本」配对数据集训练 ViT 和 Projection 模块。在这一阶段,图像分辨率被设定为 224x224,以增强 ViT 在特定架构中的知识获取能力,同时实现与大型语言模型的高效对齐。
  • 第二阶段:零一万物将 ViT 的图像分辨率提升至 448x448,这一提升让模型更加擅长识别复杂的视觉细节。此阶段使用了约 2500 万「图像 - 文本」对。
  • 第三阶段:零一万物开放整个模型的参数进行训练,目标是提高模型在多模态聊天互动中的表现。训练数据涵盖了多样化的数据源,共约 100 万「图像 - 文本」对,确保了数据的广泛性和平衡性。

零一万物技术团队同时也验证了可以基于 Yi 语言模型强大的语言理解和生成能力,用其他多模态训练方法比如 BLIP、Flamingo、EVA 等快速训练出能够进行高效图像理解和流畅图文对话的多模态图文模型。Yi 系列模型可以作为多模态模型的基座语言模型,给开源社区提供一个新的选项。

目前,Yi-VL 模型已在 Hugging Face、ModelScope 等平台上向公众开放,用户可通过以下链接亲身体验这款模型在图文对话等多元场景中的优异表现。欢迎探索 Yi-VL 多模态语言模型的强大功能,体验前沿的 AI 技术成果。

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1998

2024.08.16

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

19

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

61

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

87

2026.01.19

java输出数组相关教程
java输出数组相关教程

本专题整合了java输出数组相关教程,阅读专题下面的文章了解更多详细内容。

39

2026.01.19

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

10

2026.01.19

xml格式相关教程
xml格式相关教程

本专题整合了xml格式相关教程汇总,阅读专题下面的文章了解更多详细内容。

13

2026.01.19

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

19

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

160

2026.01.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号