0

0

训大模型讲究「化劲」!陶大程带队:一文打尽「高效训练」方案,别再说硬件是唯一瓶颈

WBOY

WBOY

发布时间:2023-05-23 17:04:08

|

834人浏览过

|

来源于51CTO.COM

转载

深度学习领域已经取得了阶段性重大进展,特别是在计算机视觉、自然语言处理和语音等方面,使用大数据训练得到的大规模模型对于实际应用、提高工业生产力和促进社会发展具有巨大的前景。

训大模型讲究「化劲」!陶大程带队:一文打尽「高效训练」方案,别再说硬件是唯一瓶颈

不过大模型也需要大算力才能训得动,随着人们对计算能力要求的不断提高,尽管已有许多研究探索高效的训练方法,但仍然没有对深度学习模型加速技术的全面综述。

最近,来自悉尼大学、中国科学技术大学等机构的研究人员发布了一篇综述,全面总结了大规模深度学习模型的高效训练技术,展现了训练过程中的各个组件内的通用机制。

训大模型讲究「化劲」!陶大程带队:一文打尽「高效训练」方案,别再说硬件是唯一瓶颈

论文链接:https://arxiv.org/pdf/2304.03589.pdf

研究人员考虑了最基本的权重更新公式,并将其基本组成部分划分为五个主要方面: 

Vondy
Vondy

下一代AI应用平台,汇集了一流的工具/应用程序

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

训大模型讲究「化劲」!陶大程带队:一文打尽「高效训练」方案,别再说硬件是唯一瓶颈

1、以数据为中心(data-centric),包括数据集正则化、数据采样和以数据为中心的课程学习技术,可以显著降低数据样本的计算复杂性;

2、以模型为中心(model-centric),包括基本模块的加速、压缩训练、模型初始化和以模型为中心的课程学习技术,侧重于通过减少参数计算来加速训练;

3、以优化为中心(optimization-centric),包括学习率的选择、使用大batch size、高效目标函数的设计、模型加权平均技术等;侧重于训练策略以提高大规模模型的通用性;

4、预算训练(budgeted training),包括一些在硬件受限的情况下使用的加速技术;

5、以系统为中心(system-centric),包括一些高效的分布式框架和开源库,为加速算法的实现提供足够的硬件支持。

以数据为中心的高效训练

最近,大规模模型的进展大放异彩,而其对数据集的要求却急剧增加。巨大的数据样本被用来驱动训练过程并取得出色的性能。因此,以数据为中心的研究对实际加速至关重要。

数据处理(data processing)的基本作用是在不额外增加标注成本的情况下,高效地增加数据样本的多样性;由于数据标注的成本往往过于昂贵,部分开发机构无法负担,也凸显了以数据为中心领域的研究的重要性;同时,数据处理还注重提高数据样本的并行加载效率。

研究人员将所有这些对数据的高效处理称为「以数据为中心」(data-centric)的方法,可以显著提高训练大规模模型的性能。

文中从以下几个方面回顾和研究技术:

数据正则化 Data Regularization

数据正则化是一种预处理技术,通过一系列的数据变换来增强原始数据样本的多样性,可以提高训练样本在特征空间中的等效表示,不需要额外的标签信息的要求。

高效的数据正则化方法在训练过程中被广泛使用,能够显著提高大规模模型的泛化性能。

数据采样 Data sampling

数据采样也是一种有效的方法,从大批量的样本中选择一个子集来对梯度进行更新,它的好处是以小批量的训练的方式,可以减少当前批次中那些不重要的或不好样本的影响。

通常情况下,采样出来的数据是更重要的,性能与使用全批次训练得到的模型相当;每次迭代的概率需要随着训练过程逐渐调整,以确保采样没有偏差。

以数据为中心的课程学习 Data-centric Curriculum Learning

课程学习在训练过程的不同阶段研究渐进的训练设置,以减少整体的计算成本。

在开始的时候,使用低质量的数据集训练足以学习低层次的特征;然后使用高质量的数据集(更多的增强和复杂的预处理方法)逐渐帮助学习复杂的特征,并达到与使用整个训练集相同的精度。

以模型为中心的高效训练

设计高效的模型架构始终是深度学习领域最重要的研究之一,一个优秀的模型应当是一个高效的特征提取器,可以投射到容易分离的高级特征中。

与其他特别关注高效、新颖的模型架构的工作不同,这篇论文在「以模型为中心」的研究中更加关注通用模块的等价替代方案,在具有可比性的情况下实现更高的训练效率。

几乎所有的大型模型都是由小模块或层组成的,所以对模型的调研可以为高效训练大规模模型提供指导作用,研究人员主要从以下几个方面研究:

架构效率 Architecture Efficiency

随着深度模型中参数量的急剧增加,也带来了巨大的计算消耗,所以需要实现一个高效的替代方案来近似原始版本的模型架构的性能,这个方向也逐渐受到学术界的重视;这种替换不仅仅是数值计算的近似,还包括深度模型中的结构简化和融合。

研究人员根据不同的架构来区分现有的加速技术,并展示了一些观察和结论。

压缩训练效率 Compression Training Efficiency

压缩一直是计算加速的研究方向之一,在数字信号处理(多媒体计算/图像处理)中起着关键作用。

传统的压缩包括两个主要分支:量化和稀疏,文中详细说明了二者现有的成就和对深度训练的贡献。

初始化效率 Initialization Efficiency

模型参数的初始化在现有的理论分析和实际场景中都是一个非常重要的因素。

一个不好的初始化状态甚至会导致整个训练在早期的训练阶段崩溃和停滞,而一个好的初始化状态则有助于在一个平滑的损失范围内加快整个收敛的速度,文中主要从模型初始化的角度研究评估和算法设计。

以模型为中心的课程学习 Model-centric Curriculum Learning

从以模型为中心的角度来看,课程学习通常从大规模模型中的一个小模型或部分参数开始训练,然后逐渐恢复到整个架构;在加速训练过程中显示了较大优势,并且没有明显的负面效应,文中回顾了该方法在训练过程中的实现和效率。

以优化为中心的高效学习

优化方法的加速方案一直是机器学习领域的一个重要研究方向,在实现最优条件的同时降低复杂性一直是学术界追求的目标。

近年来,高效、强大的优化方法在训练深度神经网络方面取得了重要突破,作为机器学习中广泛使用的基本优化器,SGD类的优化器成功地帮助深度模型实现各种实际应用,不过随着问题的日益复杂,SGD更容易陷入局部最小值,无法稳定地泛化。

为了解决这些困难,Adam及其变种被提出来,在更新上引入自适应性,这种做法在大规模的网络训练中取得了良好的效果,例如在BERT、Transformer和ViT模型中都有应用。

除了所设计的优化器的自身性能外,对加速训练技术的组合也很重要。

研究人员基于优化的角度,将目前对加速训练的思考总结为以下几个方面:

学习率  Learning rate

学习率是非凸优化的一个重要的超参数,在当前的深度网络训练中也是至关重要的,像Adam及其变种这样的自适应方法,已经成功地在深度模型上取得了卓越的进展。

训大模型讲究「化劲」!陶大程带队:一文打尽「高效训练」方案,别再说硬件是唯一瓶颈

一些基于高阶梯度的调整学习率的策略也有效地实现了加速训练,学习率衰减的实现也会影响到训练过程中的性能。

大批尺寸 Large batchsize

采用更大的批处理量将有效地提高训练效率,能够直接减少完成一个epoch训练所需的迭代次数;在样本总量固定的情况下,处理一个更大的批尺寸比处理多个小批尺寸的样本来说消耗更低,因为可以提高内存利用率和降低通信瓶颈。

高效的目标 Efficient objective

最基础的ERM在最小化问题上起到关键作用,使得许多任务得以实际运用。

随着对大型网络研究的深入,一些作品更加关注优化和泛化之间的差距,并提出有效的目标以减少测试误差;从不同的角度解释泛化的重要性,并在训练中对其进行联合优化,可以大大加快测试的准确性。

加权平均  Averaged weights

加权平均是一种实用的技术,可以增强模型的通用性,因为考虑的是历史状态的加权平均,有一组冻结的或可学习的系数,可以大大加快训练进程。

预算化高效训练

最近有几项工作专注于用较少的资源训练深度学习模型,并且尽可能地实现更高的精度。

这类问题被定义为预算训练(budgeted training),即在给定的预算(对可测量成本的限制)下进行训练,以实现最高的模型性能。

为了系统地考虑硬件支持以接近真实情况,研究人员将预算训练定义为在给定的设备和有限的时间内进行训练,例如,在单个低端深度学习服务器上训练一天,以获得具有最佳性能的模型。

训大模型讲究「化劲」!陶大程带队:一文打尽「高效训练」方案,别再说硬件是唯一瓶颈

对预算内训练的研究可以阐明如何制作预算内训练的训练配方,包括决定模型大小、模型结构、学习率安排和其他几个影响性能的可调整因素的配置,以及结合适合可用预算的高效训练技术,文中主要回顾了预算训练的几项先进技术。

以系统为中心的高效训练

以系统为中心的研究就是为所设计的算法提供具体的实现方法,研究的是能够真正实现高效训练的硬件的有效和实际执行。

研究人员重点关注通用计算设备的实现,例如多节点集群中的CPU和GPU设备,从硬件的角度解决设计算法中的潜在冲突是关注的核心。

文中主要回顾了现有框架和第三方库中的硬件实现技术,这些技术有效地支持了数据、模型和优化的处理,并介绍一些现有的开源平台,为模型的建立、有效利用数据进行训练、混合精度训练和分布式训练提供了坚实的框架。

以系统为中心的数据效率 System-centric Data Efficiency

高效的数据处理和数据并行是系统实现中的两个重要关注点。

随着数据量的快速增加,低效的数据处理逐渐成为训练效率的瓶颈,尤其是在多节点上的大规模训练,设计更多对硬件友好的计算方法和并行化可以有效避免训练中的时间浪费。

以系统为中心的模型效率 System-centric Model Efficiency

随着模型参数数量的急剧扩大,从模型角度看,系统效率已经成为重要的瓶颈之一,大规模模型的存储和计算效率给硬件实现带来巨大挑战。

文中主要回顾如何实现部署的高效I/O和模型并行的精简实现,以加快实际训练的速度。

以系统为中心的优化效率 System-centric Optimization Efficiency

优化过程代表了每个迭代中的反向传播和更新,也是训练中最耗时的计算,因此以系统为中心的优化的实现直接决定了训练的效率。

为了清楚地解读系统优化的特点,文中重点关注不同计算阶段的效率,并回顾每个过程的改进。

开源框架 Open Source Frameworks

高效的开源框架可以促进训练,作为嫁接(grafting)算法设计和硬件支持的桥梁,研究人员调查了一系列开源框架,并分析了每个设计的优势和劣势。

训大模型讲究「化劲」!陶大程带队:一文打尽「高效训练」方案,别再说硬件是唯一瓶颈

结论

研究人员回顾了有效训练大规模深度学习模型的通用训练加速技术,考虑了梯度更新公式中的所有组件,涵盖了深度学习领域的整个训练过程。

文中还提出了一个新颖的分类法,将这些技术总结归类为五个主要方向:以数据为中心、以模型为中心、以优化为中心、预算训练和以系统为中心。

前四部分主要从算法设计和方法论的角度进行综合研究,而在「以系统为中心的高效训练」部分,从范式创新和硬件支持的角度总结了实际实现情况。

文中回顾并总结了与每个部分相对应的常用或最新开发的技术,每项技术的优势和权衡,并讨论局限性和有前景的未来研究方向;在提供全面的技术回顾和指导的同时,这篇综述还提出了当前高效训练的突破口和瓶颈。

研究人员希望能帮助研究人员高效地实现通用的训练加速,并为高效训练的未来发展提供一些有意义和有前景的影响;除了在每一节末尾提到的一些潜在的进展之外,更广泛的、有前景的观点如下:

1、 高效的Profile搜索

高效训练可以从数据增强组合、模型结构、优化器设计等角度出发,为模型设计预建的和可定制的profile搜索策略,相关研究已经取得了一些进展。

新的模型架构和压缩模式、新的预训练任务、对「模型边缘」(model-edge)知识的利用同样值得探索。

2、自适应调度器 Adaptive Scheduler

使用一个面向优化的调度器,如课程学习、学习速率和批次大小以及模型的复杂性,有可能实现更好的性能;Budget-aware调度器可以动态适应剩余预算,降低人工设计的成本;自适应调度器可以用来探索并行性和通信方法,同时考虑到更通用且实际的情况,例如在跨越多地区和数据中心的异构网络中进行大规模去中心化训练。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

46

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

178

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

51

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

92

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

532

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

171

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2.1万人学习

swoole进程树解析
swoole进程树解析

共4课时 | 0.2万人学习

ThinkPHP6.x 微实战--十天技能课堂
ThinkPHP6.x 微实战--十天技能课堂

共26课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号