字节团队提出猞猁Lynx模型：多模态LLMs理解认知生成类榜单SoTA

WBOY

发布时间：2023-07-17 21:57:30

1296人浏览过

来源于51CTO.COM

转载

当前大语言模型 (Large Language Models, LLMs) 如 GPT4 在遵循给定图像的开放式指令方面表现出了出色的多模态能力。然而，这些模型的性能严重依赖于对网络结构、训练数据和训练策略等方案的选择，但这些选择并没有在先前的文献中被广泛讨论。此外，目前也缺乏合适的基准 (benchmarks) 来评估和比较这些模型，限制了多模态 LLMs 的发展。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

论文：https://arxiv.org/abs/2307.02469
网站：https://lynx-llm.github.io/
代码：https://github.com/bytedance/lynx-llm

在这篇文章中，作者从定量和定性两个方面对此类模型的训练进行了系统和全面的研究。设置了 20 多种变体，对于网络结构，比较了不同的 LLMs 主干和模型设计；对于训练数据，研究了数据和采样策略的影响；在指令方面，探讨了多样化提示对模型指令跟随能力的影响。对于 benchmarks ，文章首次提出包括图像和视频任务的开放式视觉问答评估集 Open-VQA。

基于实验结论，作者提出了 Lynx，与现有的开源 GPT4-style 模型相比，它在表现出最准确的多模态理解能力的同时，保持了最佳的多模态生成能力。

评估方案

不同于典型的视觉语言任务，评估 GPT4-style 模型的主要挑战在于平衡文本生成能力和多模态理解准确性两个方面的性能。为了解决这个问题，作者提出了一种包含视频和图像数据的新 benchmark Open-VQA，并对当前的开源模型进行了全面的评价。

具体来说，采用了两种量化评价方案：

收集开放式视觉问答 (Open-VQA) 测试集，其包含关于物体、OCR、计数、推理、动作识别、时间顺序等不同类别的问题。不同于有标准答案的 VQA 数据集，Open-VQA 的答案是开放式的。为了评估 Open-VQA 上的性能，使用 GPT4 作为判别器，其结果与人类评估有 95% 的一致性。
此外，作者采用了由 mPLUG-owl [1] 提供的 OwlEval 数据集来评估模型的文本生成能力，虽然只包含 50 张图片 82 个问题，但涵盖故事生成、广告生成、代码生成等多样问题，并招募人工标注员对不同模型的表现进行打分。

结论

为了深入研究多模态 LLMs 的训练策略，作者主要从网络结构（前缀微调 / 交叉注意力）、训练数据（数据选择及组合比例）、指示（单一指示 / 多样化指示）、LLMs 模型（LLaMA [5]/Vicuna [6]）、图像像素（420/224）等多个方面设置了二十多种变体，通过实验得出了以下主要结论：

多模态 LLMs 的指示遵循能力不如 LLMs。例如，InstructBLIP [2] 倾向于不管输入指令如何都生成简短的回复，而其他模型倾向于生成长句子而不考虑指令，作者认为这是由于缺乏高质量和多样化的多模态指令数据所导致的。
训练数据的质量对模型的性能至关重要。基于在不同的数据上进行实验的结果，发现使用少量的高质量数据比使用大规模的噪声数据表现得更好。作者认为这是生成式训练和对比式训练的区别，因为生成式训练是直接学习词的条件分布而不是文本和图像的相似度。因此，为了更好的模型性能，在数据方面需要满足两点：1）包含高质量的流畅文本；2）文本和图像内容对齐得较好。
任务和提示对零样本 (zero-shot) 能力至关重要。使用多样化任务和指令可以提升模型在未知任务上的零样本生成能力，这与纯文本模型中的观察结果一致。
平衡正确性和语言生成能力是很重要的。如果模型在下游任务 (如 VQA) 上训练不足，更可能生成与视觉输入不符的编造的内容；而如果模型在下游任务中训练过多，它则倾向于生成短答案，将无法按照用户的指示生成较长的答案。
前缀微调 (prefix-finetuning, PT) 是目前对 LLMs 进行多模态适配的最佳方案。在实验中，prefix-finetuning 结构的模型能更快地提升对多样化指示的遵循能力，比交叉注意力 (cross-attention, CA) 的模型结构更易训练。（prefix-tuning 和 cross-attention 为两种模型结构，具体见 Lynx 模型介绍部分）

Lynx 模型

作者提出了 Lynx（猞猁）—— 进行了两阶段训练的 prefix-finetuning 的 GPT4-style 模型。在第一阶段，使用大约 120M 图像 - 文本对来对齐视觉和语言嵌入 (embeddings) ；在第二阶段，使用 20 个图像或视频的多模态任务以及自然语言处理 (NLP) 数据来调整模型的指令遵循能力。

字节团队提出猞猁Lynx模型：多模态LLMs理解认知生成类榜单SoTA 图片

Lynx 模型的整体结构如上图 Figure 1 所示。

视觉输入经过视觉编码器处理后得到视觉令牌 (tokens) $$W_v$$，经过映射后与指令 tokens $$W_l$$ 拼接作为 LLMs 的输入，在本文中将这种结构称为「prefix-finetuning」以区别于如 Flamingo [3] 所使用的 cross-attention 结构。

此外，作者发现，通过在冻结 (frozen) 的 LLMs 某些层后添加适配器 (Adapter) 可以进一步降低训练成本。

模型效果

作者测评了现有的开源多模态 LLMs 模型在 Open-VQA、Mme [4] 及 OwlEval 人工测评上的表现（结果见后文图表，评估细节见论文）。可以看到 Lynx 模型在 Open-VQA 图像和视频理解任务、OwlEval 人工测评及 Mme Perception 类任务中都取得了最好的表现。其中，InstructBLIP 在多数任务中也实现了高性能，但其回复过于简短，相较而言，在大多数情况下 Lynx 模型在给出正确的答案的基础上提供了简明的理由来支撑回复，这使得它对用户更友好（部分 cases 见后文 Cases 展示部分）。

1. 在 Open-VQA 图像测试集上的指标结果如下图 Table 1 所示：

字节团队提出猞猁Lynx模型：多模态LLMs理解认知生成类榜单SoTA 图片

2. 在 Open-VQA 视频测试集上的指标结果如下图 Table 2 所示。

字节团队提出猞猁Lynx模型：多模态LLMs理解认知生成类榜单SoTA 图片

3. 选取 Open-VQA 中得分排名靠前的模型进行 OwlEval 测评集上的人工效果评估，其结果如上图 Figure 4 所示。从人工评价结果可以看出 Lynx 模型具有最佳的语言生成性能。

字节团队提出猞猁Lynx模型：多模态LLMs理解认知生成类榜单SoTA 图片

4. 在 Mme benchmark 测试中，Perception 类任务获得最好的表现，其中 14 类子任务中有 7 个表现最优。（详细结果见论文附录）

Cases 展示

Open-VQA 图片 cases

字节团队提出猞猁Lynx模型：多模态LLMs理解认知生成类榜单SoTA

OwlEval cases

字节团队提出猞猁Lynx模型：多模态LLMs理解认知生成类榜单SoTA

Open-VQA 视频 case

字节团队提出猞猁Lynx模型：多模态LLMs理解认知生成类榜单SoTA

总结

在本文中，作者通过对二十多种多模态 LLMs 变种的实验，确定了以 prefix-finetuning 为主要结构的 Lynx 模型并给出开放式答案的 Open-VQA 测评方案。实验结果显示 Lynx 模型表现最准确的多模态理解准确度的同时，保持了最佳的多模态生成能力。

WorkBuddy技能包运行失败怎么办_WorkBuddy技能执行错误解决办法

Perplexity如何使用Gemini模型_Perplexity多模型协作搜索教程【高级】

OpenClaw隐藏设置_OpenClaw隐藏配置详解【详解】

Perplexity自定义搜索范围_Perplexity Focus模式使用教程【核心】

GitHubCopilot与Codeium哪个好_GitHubCopilot功能差异说明【详解】

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4281

2026.01.21

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

418

2026.01.27

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2916

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板