讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

Yi-VL大模型开源，荣居MMMU、CMMMU榜首

WBOY

发布时间：2024-01-22 21:30:21

|

517人浏览过

|

来源于机器之心

转载

1 月 22 日，零一万物 Yi 系列模型家族迎来新成员：Yi Vision Language（Yi-VL）多模态语言大模型正式面向全球开源。据悉，Yi-VL 模型基于 Yi 语言模型开发，包括 Yi-VL-34B 和 Yi-VL-6B 两个版本。

Yi-VL 模型开源地址：

https://huggingface.co/01-ai
https://www.modelscope.cn/organization/01ai

凭借卓越的图文理解和对话生成能力，Yi-VL 模型在英文数据集 MMMU 和中文数据集 CMMMU 上取得了领先成绩，展示了在复杂跨学科任务上的强大实力。

MMMU（全名 Massive Multi-discipline Multi-modal Understanding & Reasoning 大规模多学科多模态理解和推理）数据集包含了 11500 个来自六大核心学科（艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程）的问题，涉及高度异构图像类型和交织文本图像信息，对模型的高级知觉和推理能力提出了极高要求。在该测试集上，Yi-VL-34B 以 41.6% 的准确率表现超越了一系列多模态大模型，仅次于 GPT-4V（55.7%），展现出强大的跨学科知识理解和应用能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

零一万物yi-vl多模态大模型开源，mmmu、cmmmu两大权威榜单领先

零一万物Yi-VL多模态大模型开源，MMMU、CMMMU两大权威榜单领先

^{来源：https://mmmu-benchmark.github.io}

在针对中文场景打造的 CMMMU 数据集上，Yi-VL 模型展现了「更懂中国人」的独特优势。CMMMU 包含了约 12000 道源自大学考试、测验和教科书的中文多模态问题。其中，GPT-4V 在该测试集上的准确率为 43.7%， Yi-VL-34B 以 36.5% 的准确率紧随其后，在现有的开源多模态模型中处于领先位置。

零一万物Yi-VL多模态大模型开源，MMMU、CMMMU两大权威榜单领先

零一万物Yi-VL多模态大模型开源，MMMU、CMMMU两大权威榜单领先

^{来源：https://cmmmu-benchmark.github.io/}

那么，Yi-VL 模型在图文对话等多元场景中的表现如何？

我们先看两个示例：

零一万物Yi-VL多模态大模型开源，MMMU、CMMMU两大权威榜单领先

艺映AI

艺映AI

艺映AI - 免费AI视频创作工具

下载

零一万物Yi-VL多模态大模型开源，MMMU、CMMMU两大权威榜单领先

可以看到，基于 Yi 语言模型的强大文本理解能力，只需对图片进行对齐，就可以得到不错的多模态视觉语言模型 —— 这也是 Yi-VL 模型的核心亮点之一。

零一万物Yi-VL多模态大模型开源，MMMU、CMMMU两大权威榜单领先

^{Yi-VL 模型架构设计和训练方法流程一览。}

在架构设计上，Yi-VL 模型基于开源 LLaVA 架构，包含三个主要模块：

Vision Transformer（简称 ViT）用于图像编码，使用开源的 OpenClip ViT-H/14 模型初始化可训练参数，通过学习从大规模「图像 - 文本」对中提取特征，使模型具备处理和理解图像的能力。
Projection 模块为模型带来了图像特征与文本特征空间对齐的能力。该模块由一个包含层归一化（layer normalizations）的多层感知机（Multilayer Perceptron，简称 MLP）构成。这一设计使得模型可以更有效地融合和处理视觉和文本信息，提高了多模态理解和生成的准确度。
Yi-34B-Chat 和 Yi-6B-Chat 大规模语言模型的引入为 Yi-VL 提供了强大的语言理解和生成能力。该部分模型借助先进的自然语言处理技术，能够帮助 Yi-VL 深入理解复杂的语言结构，并生成连贯、相关的文本输出。

在训练方法上，Yi-VL 模型的训练过程分为三个精心设计的阶段，旨在全面提升模型的视觉和语言处理能力。

第一阶段：零一万物使用 1 亿张的「图像 - 文本」配对数据集训练 ViT 和 Projection 模块。在这一阶段，图像分辨率被设定为 224x224，以增强 ViT 在特定架构中的知识获取能力，同时实现与大型语言模型的高效对齐。
第二阶段：零一万物将 ViT 的图像分辨率提升至 448x448，这一提升让模型更加擅长识别复杂的视觉细节。此阶段使用了约 2500 万「图像 - 文本」对。
第三阶段：零一万物开放整个模型的参数进行训练，目标是提高模型在多模态聊天互动中的表现。训练数据涵盖了多样化的数据源，共约 100 万「图像 - 文本」对，确保了数据的广泛性和平衡性。

零一万物技术团队同时也验证了可以基于 Yi 语言模型强大的语言理解和生成能力，用其他多模态训练方法比如 BLIP、Flamingo、EVA 等快速训练出能够进行高效图像理解和流畅图文对话的多模态图文模型。Yi 系列模型可以作为多模态模型的基座语言模型，给开源社区提供一个新的选项。

目前，Yi-VL 模型已在 Hugging Face、ModelScope 等平台上向公众开放，用户可通过以下链接亲身体验这款模型在图文对话等多元场景中的优异表现。欢迎探索 Yi-VL 多模态语言模型的强大功能，体验前沿的 AI 技术成果。

相关文章

微软Designer是什么？AI海报设计工具使用教程

如何用提示词做SWOT分析_商业分析AI辅助法【模型】

AI绘画提示词灵感从哪来_关键词发现与收集渠道【灵感】

如何搭建一个全自动AI内容创作流水线？从选题到发布

如何用AI进行数据分析？Excel+AI功能实战教程

相关标签:

架构 github transformer https gpt

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：机器学习项目的组织方式：Crisp-DM的应用下一篇：误差反向传播的概念和步骤

作者最新文章

夸克浏览器一键启用AI搜索_带你体验夸克AI搜索的强大之处

2025-10-19 18:42

玩转夸克浏览器的AI搜索模式_夸克AI搜索新手入门操作指南

2025-10-20 09:50

夸克浏览器AI搜索最新版教学_探索夸克AI搜索的隐藏功能

2025-10-24 20:48

夸克浏览器怎么用AI搜索_夸克AI搜索正确提问方式教学

2025-10-25 23:12

微信朋友圈怎么设置定时发布微信朋友圈定时发送图文教程

2026-01-02 09:14

微信朋友圈怎么定时发送微信朋友圈定时发布设置方法【教程】

2026-01-06 09:59

苹果手机怎么定时发朋友圈 iPhone微信朋友圈自动发布方法【步骤】

2026-01-08 11:11

微信朋友圈能定时发送吗微信朋友圈定时发送功能开启方法

2026-01-09 08:15

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1998

2024.08.16

Java JVM 原理与性能调优实战

Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机（JVM）的核心工作原理与性能调优方法，包括 JVM 内存结构、对象创建与回收流程、垃圾回收器（Serial、CMS、G1、ZGC）对比分析、常见内存泄漏与性能瓶颈排查，以及 JVM 参数调优与监控工具（jstat、jmap、jvisualvm）的实战使用。通过真实案例，帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

19

2026.01.20

PS使用蒙版相关教程

PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程，阅读专题下面的文章了解更多详细内容。

61

2026.01.19

java用途介绍

java用途介绍

本专题整合了java用途功能相关介绍，阅读专题下面的文章了解更多详细内容。

87

2026.01.19

java输出数组相关教程

java输出数组相关教程

本专题整合了java输出数组相关教程，阅读专题下面的文章了解更多详细内容。

39

2026.01.19

java接口相关教程

java接口相关教程

本专题整合了java接口相关内容，阅读专题下面的文章了解更多详细内容。

10

2026.01.19

xml格式相关教程

xml格式相关教程

本专题整合了xml格式相关教程汇总，阅读专题下面的文章了解更多详细内容。

13

2026.01.19

PHP WebSocket 实时通信开发

PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践，涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例，帮助开发者掌握使用 PHP 构建实时通信与推送服务的完整开发流程，适用于即时消息与高互动性应用场景。

19

2026.01.19

微信聊天记录删除恢复导出教程汇总

微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全，阅读专题下面的文章了解更多详细内容。

160

2026.01.18

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

支付宝沙箱支付（个人也能用的支付）

支付宝沙箱支付（个人也能用的支付）

共12课时 | 0.5万人学习

国外Web开发全栈课程全集

国外Web开发全栈课程全集

共12课时 | 1.0万人学习

python大神Mosh，零基础小白6小时完全入门

python大神Mosh，零基础小白6小时完全入门

共50课时 | 3.8万人学习

最新文章

更多

Pika 1.5如何生成特效视频？AI物理模拟特效指令使用方法【干货】

PixelcutAI怎样强化产品轮廓色_PixelcutAI轮廓色强化法【强化】

Poe是什么平台？如何在一个App里使用所有AI模型

雷克萨斯2025年国内销量176354台 4S店平均盈利300万

韩国2025年电动车销量首破20万辆中国产汽车大卖

如何微调（Fine-tune）一个大语言模型？个性化AI定制教程

如何为DreamStudio设置艺术风格_StableDiffusion高级技巧【方案】

Leonardo AI如何训练个人画风？LoRA模型在线微调训练流程【实操】

ChatGPT自定义指令(Custom Instructions)设置指南，让AI更懂你

AI换背景怎么做？一键移除并替换任何图片背景

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部