0

0

DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑

WBOY

WBOY

发布时间:2023-11-07 21:13:10

|

718人浏览过

|

来源于机器之心

转载

难道 transformer 注定无法解决「训练数据」之外的新问题?

说起大语言模型所展示的令人印象深刻的能力,其中之一就是通过提供上下文中的样本,要求模型根据最终提供的输入生成一个响应,从而实现少样本学习的能力。这一点依靠的是底层机器学习技术「transformer 模型」,并且它们也能在语言以外的领域执行上下文学习任务。

根据以往的经验,已经证明对于在预训练的混合体中得到充分体现的任务族或函数类来说,选择适当的函数类进行上下文学习几乎没有成本。因此,有些研究人员认为Transformer能够很好地泛化与训练数据相同分布的任务或函数。然而,一个普遍存在但未解决的问题是:在与训练数据分布不一致的样本上,这些模型的表现如何呢?

在最近的一项研究中,来自 DeepMind 的研究者借助实证研究,对这个问题进行了探讨。他们将泛化问题解释为以下内容:「一个模型能否利用不属于预训练数据混合体中任何基本函数类的函数的上下文样本生成良好的预测?(Can a model generate good predictions with in-context examples from a function not in any of the base function classes seen in the pretraining data mixture? )」

这篇内容的重点是探讨预训练过程中使用的数据对由此产生的Transformer模型的少样本学习能力的影响。为了解决这个问题,研究者首先研究了Transformer在预训练过程中选择不同函数类族进行模型选择的能力(第3节),然后回答了几个重点案例的OOD泛化问题(第4节)

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑

论文链接:https://arxiv.org/pdf/2311.00871.pdf

在他们的研究中发现了以下情况:首先,预训练的Transformer在预测从预训练函数类中提取的函数的凸组合时非常困难;其次,虽然Transformer可以有效地泛化函数类空间中较为罕见的部分,但当任务超出其分布范围时,Transformer仍然会发生错误

Transformer无法泛化出预训练数据之外的认知,因此也无法解决认知之外的问题

DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑

总的来说,本文的贡献如下所述:

  • 使用多种不同函数类的混合体对 Transformer 模型进行预训练,以便进行上下文学习,并描述了模型选择行为的特征;

  • 对于与预训练数据中函数类「不一致」的函数,研究了预训练 Transformer 模型在上下文学习方面的行为

  • 强有力的证据已经表明,模型在上下文学习过程中可以在预训练的函数类中进行模型选择,而几乎不需要额外的统计成本,但也存在有限证据,表明模型的上下文学习行为能够超出其预训练数据的范围。

这位研究者认为,这可能是对安全方面来说的一个好消息,至少模型不会随心所欲地行事

DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑

但也有人指出,这篇论文所使用的模型不太合适 ——「GPT-2 规模」意味着本文模型大概是 15 亿参数作用,这确实很难泛化。DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑

DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑

接下来,我们先来看看论文细节。

模型选择现象

在对不同函数类的数据混合体进行预训练时,会面临一个问题:当模型遇到预训练混合体所支持的上下文样本时,如何在不同函数类之间做出选择?

Unscreen
Unscreen

AI智能视频背景移除工具

下载

在研究中发现,当模型接触到与预训练数据中的函数类相关的上下文样本时,它能够做出最佳(或接近最佳)的预测。研究人员还观察了模型在不属于任何单一成分函数类的函数上的表现,并在第四部分讨论了与预训练数据完全不相关的函数

首先,我们从线性函数的研究入手,可以看到线性函数在上下文学习领域引起了广泛的关注。去年,斯坦福大学的 Percy Liang 等人发表的论文《变压器在上下文中能学习到什么?一个简单函数类的案例研究》表明,预训练的变压器在学习新的线性函数上下文时表现非常出色,几乎达到了最佳水平

他们特别考虑了两个模型:一个是在密集线性函数(线性模型的所有系数都非零)上训练的模型,另一个是在稀疏线性函数(20 个系数中只有 2 个系数非零)上训练的模型。在新的密集线性函数和稀疏线性函数上,每个模型的表现分别与线性回归和 Lasso 回归相当。此外,研究者还将这两个模型与在稀疏线性函数和密集线性函数的混合体上预训练的模型进行了比较。

DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑

如图 1 所示,该模型在一个DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑混合体在上下文学习中的表现与只对一个函数类进行预训练的模型相似。由于混合体预训练模型的表现与 Garg et al.[4] 的理论最优模型相似,研究者推断该模型也接近最优。图 2 中的 ICL 学习曲线表明,这种上下文模型选择能力与所提供的上下文示例数量相对一致。在图 2 中还可以看到,对于特定函数类,使用各种 non-trivial 权重DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑

ICL学习曲线与最佳基线样本复杂度几乎一致。偏差很小,随着ICL样本数量的增加,偏差迅速减小,与图1中的ICL学习曲线上的点相符

图2显示,Transformer模型的ICL泛化会受到分布外的影响。虽然密集线性类和稀疏线性类都是线性函数,但可以看到图2a中红色曲线(对应于只在稀疏线性函数上进行预训练并在密集线性数据上进行评估的Transformer)的性能很差,反之亦然,图2b中茶色曲线的性能也很差。研究者在其他非线性函数类中也观察到了类似的表现

DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑

回到图 1 中的实验,将误差绘制为整个可能范围内非零系数数量的函数,结果显示,在 w = .5 的混合体上预处理的模型,DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑,在整个过程中的表现与在混合体上预处理的模型(即 w = 0 以及 w = 1)一样好(图 3a)。这表明该模型能够进行模型选择,以选择是否仅使用预训练混合体中一个基函数类的知识或另一个基函数类的知识进行预测。

事实上,图 3b 显示,当上下文中提供的样本来自非常稀疏或非常密集的函数时,预测结果几乎与只使用稀疏数据或只使用密集数据预训练的模型预测结果完全相同。然而,在两者之间,当非零系数的数量≈4 时,混合预测结果偏离了纯密集或纯稀疏预训练 Transformer 的预测结果。

这表明对混合体进行预训练的模型并不是简单地选择单一函数类进行预测,而是预测介于两者之间的结果。

模型选择能力的限制

接着,研究人员从两个角度检查了模型的ICL泛化能力。第一,测试了模型在训练过程中未曾接触过的函数的ICL表现;第二,评估了模型在预训练中曾经接触过的函数的极端版本的ICL表现

在这两种情况下,研究几乎没有发现分布外泛化的证据。当函数与预训练期间看到的函数相差很大时,预测就会不稳定;当函数足够接近预训练数据时,模型可以很好地近似

DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑

Transformer在中等稀疏级别(nnz = 3到7)下的预测与预训练提供的任何函数类的预测都不相似,而是介于两者之间,如图3a所示。因此,我们可以推断该模型具有某种归纳偏差,使其能够以非平凡的方式组合预训练的函数类。例如,我们可以怀疑该模型可以根据预训练期间看到的函数组合来生成预测。为了验证这个假设,研究者探讨了对线性函数、正弦曲线和两者的凸组合执行ICL的能力。他们将重点放在一维情况上,以便更容易评估和可视化非线性函数类

图 4 显示,虽然在线性函数和正弦曲线的混合上预训练的模型(即DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑)能够分别对这两个函数中的任何一个做出良好的预测,它无法拟合两者的凸组合函数。这表明图 3b 中所示的线性函数插值现象并不是 Transformer 上下文学习的可概括的归纳偏差。然而,它继续支持更狭隘的假设,即当上下文样本接近预训练中学习的函数类时,模型能够选择最佳函数类用于预测。

DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑

如需了解更多研究细节,请查阅原论文

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
function是什么
function是什么

function是函数的意思,是一段具有特定功能的可重复使用的代码块,是程序的基本组成单元之一,可以接受输入参数,执行特定的操作,并返回结果。本专题为大家提供function是什么的相关的文章、下载、课程内容,供大家免费下载体验。

499

2023.08.04

js函数function用法
js函数function用法

js函数function用法有:1、声明函数;2、调用函数;3、函数参数;4、函数返回值;5、匿名函数;6、函数作为参数;7、函数作用域;8、递归函数。本专题提供js函数function用法的相关文章内容,大家可以免费阅读。

166

2023.10.07

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2904

2024.08.16

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

22

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

48

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

93

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

216

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

412

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

143

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 4.2万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

MySQL 教程
MySQL 教程

共48课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号