智源等机构发布LM-Cocktail模型的多技能大模型治理策略

PHPz

发布时间：2023-12-14 18:31:02

847人浏览过

来源于51CTO.COM

转载

随着大模型技术的发展与落地，「模型治理」已经成为了目前受到重点关注的命题。只不过，在实践中，研究者往往感受到多重挑战。

一方面，为了高其在目标任务的性能表现，研究者会收集和构建目标任务数据集并对大语言模型（LLM）进行微调，但这种方式通常会导致除目标任务以外的一般任务的性能明显下降，损害 LLM 原本具备的通用能力。

另一方面，开源社区的模型逐渐增多，大模型开发者也可能在多次训练中累计了越来越多的模型，每个模型都具有各自的优势，如何选择合适的模型执行任务或进一步微调反而成为一个问题。

近日，智源研究院信息检索与知识计算组发布 LM-Cocktail 模型治理策略，旨在为大模型开发者提供一个低成本持续提升模型性能的方式：通过少量样例计算融合权重，借助模型融合技术融合微调模型和原模型的优势，实现「模型资源」的高效利用。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

技术报告：https://arxiv.org/abs/2311.13534
代码：https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail

模型融合技术可以通过融合多个模型提高单模型的性能。受此启发，LM-Cocktail 策略进一步通过对目标任务计算不同模型的重要性，赋予不同模型不同的权重，在此基础上进行模型融合，在提升目标任务上性能的同时，保持在通用任务上的强大能力。

LM-Cocktail 策略的作用类似于制作鸡尾酒，它可以将各个模型的优势能力汇总起来，通过调配不同的模型，创造出一个拥有多种特长的「多才」模型

方法创新

具体而言，LM-Cocktail 可以通过手动选择模型配比，或者输入少量样例自动计算加权权重，来融合现有模型生成一个新模型，该过程不需要对模型进行重新训练并且具备适配多种结构的模型，如大语言模型 Llama，语义向量模型 BGE 等。

如果开发者缺乏某些目标任务的标签数据，或者缺少计算资源进行模型微调，那么可以采用LM-Cocktail策略来省去模型微调的步骤。只需构造极少量的数据样例，就可以融合开源社区中已有的大型语言模型，以调制自己的「LM鸡尾酒」

智源等机构发布LM-Cocktail模型的多技能大模型治理策略

如上图所示，在特定目标任务上微调 Llama，可以显著提高目标任务上的准确度，但损害了在其他任务上的通用能力。采用 LM-Cocktail 可以解决这个问题。

LM-Cocktail 的核心是将微调后的模型与多个其他模型的参数进行融合，整合多个模型的优点，在提高目标任务上准确度的同时，保持在其他任务上的通用能力。具体形式为，给定目标任务、基础模型，以及一个在该任务上微调基础模型后得到的模型，同时收集开源社区或以往训练过的模型组成集合。通过目标任务上少量的样例计算每个模型的融合加权权重，对这些模型的参数进行加权求和，得到新的模型（具体的过程请参考论文或开源代码）。如果开源社区不存在其他模型，也可以直接融合基础模型和微调模型，在不降低通用能力的基础上提升下游任务表现。

用户在实际应用场景中，由于数据和资源的限制，可能无法进行下游任务的微调，即没有在目标任务微调过后的模型。这种情况下，用户可以通过构造非常少量的数据样例融合社区中已有的大语言模型，生成一个面向新任务的模型，提高目标任务的准确度，而无需对模型进行训练。

实验结果

1. 弹性微调以保持通用能力

智源等机构发布LM-Cocktail模型的多技能大模型治理策略

从上图中可以看到，在某个目标任务上进行微调之后，微调后的模型大幅提高了在该任务上的准确度，但其他通用任务上的准确度都有所下降。例如，在 AG News 到训练集上进行微调，Llama 在 AG News 测试集上准确度从 40.80% 涨到 94.42%，但在其他任务上准确度从 46.80% 下降到了 38.58%。

然而，通过简单的融合微调后模型和原模型的参数，在目标任务上实现了具有竞争力的性能 94.46%，与微调模型相当，同时在其他任务上准确度为 47.73%, 甚至稍强于原模型的性能。在某些任务下，如 Helleswag，融合后的模型甚至可以在该微调任务上超过微调后的模型，并在其他任务上超过原通用模型，即在继承微调模型和原模型的优点的同时，超过了他们。可以看出，通过 LM-Cocktail 计算融合比例，进一步融合其他微调模型，可以在保证目标任务准确度的同时，进一步提升在其他任务上的通用性能。

2. 混合已有模型处理新任务

智源等机构发布LM-Cocktail模型的多技能大模型治理策略

重写后的内容：图表展示了语言模型目标任务MMLU

智源等机构发布LM-Cocktail模型的多技能大模型治理策略

重写后的内容：图片：向量模型的目标任务是检索（信息检索）

微调模型需要大量的数据，同时需要大量的计算资源，尤其是微调大语言模型，这些在实际情况中不一定可以实现。在无法对目标任务进行微调的情况下，LM- Cocktail 可以通过混合已有的模型（来自开源社区或者自己历史训练积累）来实现新的能力。

通过只给定 5 条样例数据，LM-Cocktail 自动计算融合加权权重，从已有的模型进行筛选然后融合得到新的模型，而无需使用大量数据进行训练。实验发现，生成的新模型可以在新的任务上得到更高的准确度。例如，对于 Llama，通过 LM- Cocktail 融合现有 10 个模型（其训练任务都与 MMLU 榜单无关），可以取得明显的提升，并且要高于使用 5 条样例数据进行上下文学习的 Llama 模型。

请尝试使用 lm-cocktail，我们欢迎您通过github issue提供反馈和建议：https://github.com/flagopen/flagembedding/tree/master/lm_cocktail

AIBox 一站式AI创作平台

AIBox365一站式AI创作平台，支持ChatGPT、GPT4、Claue3、Gemini、Midjourney等国内外大模型

下载

aishort提示生成失败怎么办_aishort常见报错处理办法【解答】

WorkBuddy技能包运行失败怎么办_WorkBuddy技能执行错误解决办法

Perplexity如何使用Gemini模型_Perplexity多模型协作搜索教程【高级】

OpenClaw隐藏设置_OpenClaw隐藏配置详解【详解】

Perplexity自定义搜索范围_Perplexity Focus模式使用教程【核心】

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4296

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2917

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板