百川智能发布Baichuan2大模型：全面领先Llama2，训练切片也开源了

WBOY

发布时间：2023-09-07 15:13:05

1375人浏览过

来源于机器之心

转载

在业界都惊讶于百川智能平均 28 天发布一款大模型的时候，这家公司并没有停下脚步。

9 月 6 日下午的发布会上，百川智能宣布正式开源微调后的 Baichuan-2 大模型。

百川智能发布Baichuan2大模型：全面领先Llama2，训练切片也开源了中国科学院院士、清华大学人工智能研究院名誉院长张钹在发布会上。

这是百川自 8 月发布 Baichuan-53B 大模型后的又一次新发布。本次开源的模型包括 Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat 与其 4bit 量化版本，并且均为免费可商用。

除了模型的全面公开之外，百川智能此次还开源了模型训练的 Check Point，并公开了 Baichuan 2 技术报告，详细介绍了新模型的训练细节。百川智能创始人兼 CEO 王小川表示，希望此举能够帮助大模型学术机构、开发者和企业用户深入了解大模型的训练过程，更好地推动大模型学术研究和社区的技术发展。

Baichuan 2 大模型开原链接：https://github.com/baichuan-inc/Baichuan2

技术报告：https://cdn.baichuan-ai.com/paper/Baichuan2-technical-report.pdf

今天开源的模型相对于大模型而言体量「较小」，其中 Baichuan2-7B-Base 和 Baichuan2-13B-Base 均基于 2.6 万亿高质量多语言数据进行训练，在保留了上一代开源模型良好的生成与创作能力，流畅的多轮对话能力以及部署门槛较低等众多特性的基础上，两个模型在数学、代码、安全、逻辑推理、语义理解等能力有显著提升。

「简单来说，Baichuan7B 70 亿参数模型在英文基准上已经能够与 LLaMA2 的 130 亿参数模型能力持平。因此，我们可以做到以小博大，小模型相当于大模型的能力，而在同体量上的模型可以得到更高的性能，全面超越了 LLaMA2 的性能，」王小川介绍道。

其中 Baichuan2-13B-Base 相比上一代 13B 模型，数学能力提升 49%，代码能力提升 46%，安全能力提升 37%，逻辑推理能力提升 25%，语义理解能力提升 15%。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

百川智能发布Baichuan2大模型：全面领先Llama2，训练切片也开源了

据介绍，在新的模型上，百川智能的研究者们从数据获取到微调进行了很多优化。

「我们借鉴了之前做搜索时的更多经验，对大量模型训练数据进行了多粒度内容质量打分，使用了 2.6 亿 T 的语料级来训练 7B 与 13B 的模型，并且加入了多语言的支持，」王小川表示。「我们在千卡 A800 集群里可以达到 180TFLOPS 的训练性能，机器利用率超过 50%。在此之外，我们也完成了很多安全对齐的工作。」

本次开源的两个模型在各大评测榜单上的表现优秀，在 MMLU、CMMLU、GSM8K 等几大权威评估基准中，以较大优势领先 LLaMA2，相比其他同等参数量大模型，表现也十分亮眼，性能大幅度优于 LLaMA2 等同尺寸模型竞品。

更值得一提的是，根据 MMLU 等多个权威英文评估基准评分 Baichuan2-7B 以 70 亿的参数在英文主流任务上与 130 亿参数量的 LLaMA2 持平。

百川智能发布Baichuan2大模型：全面领先Llama2，训练切片也开源了

DeepSider

浏览器AI侧边栏对话插件，集成多个AI大模型

下载

7B 参数模型的 Benchmark 成绩。

百川智能发布Baichuan2大模型：全面领先Llama2，训练切片也开源了

13B 参数模型的 Benchmark 成绩。

Baichuan2-7B 和 Baichuan2-13B 不仅对学术研究完全开放，开发者也仅需邮件申请获得官方商用许可后，即可以免费商用。

「除了模型发布以外，我们也希望对学术领域做更多的支持，」王小川表示。「除了技术报告以外，我们也把 Baichuan2 大模型训练过程中的权重参数模型进行了开放。这对于大家理解预训练，或者进行微调强化能够带来帮助。这也是在国内首次有公司能开放这样的训练过程。」

大模型训练包含海量高质量数据获取、大规模训练集群稳定训练、模型算法调优等多个环节。每个环节都需要大量人才、算力等资源的投入，从零到一完整训练一个模型的高昂成本，阻碍了学术界对大模型训练的深入研究。

百川智能本次开源了模型训练从 220B 到 2640B 全过程的 Check Ponit。这对于科研机构研究大模型训练过程、模型继续训练和模型的价值观对齐等极具价值，可以推动国内大模型的科研进展。

百川智能发布Baichuan2大模型：全面领先Llama2，训练切片也开源了

此前，大部分开源模型只是对外公开自身的模型权重，很少提及训练细节，开发者们只能进行有限的微调，很难深入研究。

百川智能公开的 Baichuan 2 技术报告详细介绍了 Baichuan 2 训练的全过程，包括数据处理、模型结构优化、Scaling law、过程指标等。

百川智能自成立之初，就将通过开源方式助力中国大模型生态繁荣作为公司的重要发展方向。成立不到四个月，便相继发布了 Baichuan-7B、Baichuan-13B 两款开源免费可商用的中文大模型，以及一款搜索增强大模型 Baichuan-53B，两款开源大模型在多个权威评测榜单均名列前茅，目前下载量超过 500 万次。

上周，首批大模型公众服务拍照落地是科技领域的重要新闻。在今年创立的大模型公司中，百川智能是唯一一家通过《生成式人工智能服务管理暂行办法》备案，可以正式面向公众提供服务的企业。

凭借行业领先的基础大模型研发和创新能力，此次开源的两款 Baichuan 2 大模型，得到了上下游企业的积极响应，腾讯云、阿里云、火山方舟、华为、联发科等众多知名企业均参加了本次发布会并与百川智能达成了合作。据介绍，百川智能的大模型在 Hugging Face 上近一个月来的下载量已达到 337 万。

按照此前百川智能的计划，在今年他们还要发布千亿参数大模型，并在明年一季度推出「超级应用」。

aishort怎么避免重复生成内容_aishort优化输入方式实用技巧【技巧】

PerplexityAI怎么改写已有文章_PerplexityAI文本优化技巧【技巧】

如何提升代码运行的稳定性和效率利用DeepSeek进行自动化回归测试

如何快速掌握复杂的电路仿真设计利用豆包AI进行理论与实践步骤指导

如何零基础学会利用AI进行内容创作利用DeepSeek制定全套学习成长计划

相关专题

go语言数组和切片

本专题整合了go语言数组和切片的区别与含义，阅读专题下面的文章了解更多详细内容。

2025.09.03

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4431

2026.01.21

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

504

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2930

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

116

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

347

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

109

2026.03.09

热门下载

网站特效

网站源码

网站素材

前端模板