0

0

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块

王林

王林

发布时间:2023-04-09 21:51:20

|

1376人浏览过

|

来源于51CTO.COM

转载

零样本学习(Zero-Shot Learning)聚焦于对训练过程中没有出现过的类别进行分类,基于语义描述的零样本学习通过预先定义的每个类别的高阶语义信息来实现从可见类(seen class)到未见类(unseen class)的知识迁移。传统零样本学习在测试阶段仅需要对未见类进行识别,而广义零样本学习(GZSL)需要同时识别可见类和未见类,其评测指标是可见类类平均准确率与未见类类平均准确率的调和平均。

一种通用的零样本学习策略是使用可见类样本和语义训练从语义空间到视觉样本空间的条件生成模型,再借助未见类语义生成未见类的伪样本,最后使用可见类样本和未见类伪样本训练分类网络。然而,要学习两个模态(语义模态与视觉模态)间的良好映射关系通常需要大量样本(参照 CLIP),这在传统零样本学习环境下无法实现。因此,使用未见类语义生成的视觉样本分布通常和真实样本分布存在偏差(bias),这意味着以下两点:1. 这种方法获得的未见类准确率有限。2. 在未见类平均每类生成伪样本数量与可见类平均每类样本数量相当的情况下,未见类准确率与可见类准确率存在较大差值,如下表 1 所示。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

我们发现就算只学习语义到类别中心点的映射,并将未见类语义映射为的单一样本点复制多次再参加分类器训练也能得到接近使用生成模型的效果。这意味着生成模型生成的未见类伪样本特征对分类器来说是较为同质(homogeneity)的。

先前的方法通常通过生成大量未见类伪样本来迎合 GZSL 评测指标(尽管大的采样数量对未见类类间判别没有帮助)。然而这种重采样(re-sampling)的策略在长尾学习(Long-tail Learning)领域被证明会导致分类器在部分特征上过拟合,在这里即是与真实样本偏移的伪未见类特征。这种情况不利于可见类和未见类真实样本的识别。那么,能否舍弃这种重采样策略,转而将生成未见类伪样本的偏移性和同质性(或者可见类与未见类的类别不平衡)作为归纳偏置(inductive bias)植入分类器学习呢?

基于此,我们提出了一个即插即用的分类器模块,只需修改一行代码就能提升生成型零样本学习方法的效果。每个不可见类只需生成 10 个伪样本,就能达到 SOTA 水平。与其他生成型零样本方法相比,新方法在计算复杂度上具有巨大优势。研究成员来自南京理工大学和牛津大学。

图片


  • 论文: https://arxiv.org/abs/2204.11822
  • 代码: https://github.com/cdb342/IJCAI-2022-ZLA

本文以一致化训练与测试目标为指引,推导出广义零样本学习评测指标的变分下界。以此建模的分类器能够避免使用重采用策略,防止分类器在生成的伪样本上过拟合对真实样本的识别造成不利影响。所提方法能够使基于嵌入的分类器在生成型方法框架上有效,减少了分类器对于生成伪样本质量的依赖。

方法

1. 引入参数化先验

我们决定从分类器的损失函数上着手。假设类别空间已经被生成的未见类伪样本所完善,先前的分类器以最大化全局准确率为优化目标:

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块图片

其中图片为全局准确率,图片表示分类器输出,图片表示样本分布,图片为样本 X 对应标签。而 GZSL 的评测指标为:

用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块图片

其中图片图片分别代表可见类和未见类集合。训练目标和测试目标的不一致意味着先前的分类器训练策略没有考虑可见类和未见类的差异。自然而然地,我们试图通过对图片进行推导来实现训练与测试目标一致的结果。经过推导,我们得到了其下界:

图片

其中图片代表可见类 - 未见类先验,其与数据无关,在实验中作为超参数进行调整,图片代表可见类或未见类内部先验,在实现过程中用可见类样本频率或均匀分布代替。通过最大化图片的下界,我们得到了最终的优化目标:

BlackBox AI
BlackBox AI

AI编程助手,智能对话问答助手

下载

图片

由此,我们的分类建模目标相较先前发生了以下改变:

图片

通过使用交叉熵(cross-entropy)拟合后验概率图片,我们得到分类器损失为:

图片

这与长尾学习中的逻辑调整(Logit Adjustment)类似,因此我们称之为零样本逻辑调整(ZLA)。至此,我们实现了通过引入参数化先验将可见类与未见类的类别不平衡作为归纳偏置植入到分类器训练中,并且在代码实现中只需对原始 logits 加上额外偏置项就能达到以上效果。

图片

2. 引入语义先验

到目前为止,零样本迁移的核心,即语义先验(semantic prior)仅在训练生成器与生成伪样本阶段发挥作用,对未见类的识别完全取决于生成的未见类伪样本的质量。显然,如果能够在分类器训练阶段引入语义先验,将会有助于未见类的识别。在零样本学习领域有一类基于嵌入(embedding-based)的方法能够实现这一功能。然而,这一类方法与生成模型学习到的知识是相似的,即语义与视觉间的联系(semantic-visual link),这导致在先前的生成型框架中(参照论文 f-CLSWGAN)直接引入基于嵌入的分类器无法取得比原先更好的效果(除非这种分类器本身就有更好的零样本性能)。通过本文提出的 ZLA 策略,我们能够改变生成的未见类伪样本在分类器训练中扮演的角色。从原先的提供不可见类信息到现在的调整不可见类与可见类间的决策界限(decision boundary),我们得以在分类器训练阶段引入语义先验。具体地,我们采用了原型学习的方法将每个类别的语义映射为视觉原型(即分类器权值),再将调整的后验概率(adjusted posterior)建模为样本与视觉原型间的余弦相似度(cosine similarity),即

图片

其中图片为温度系数。在测试阶段,样本被预测为与其余弦相似度最大的视觉原型对应类别。

图片

实验

我们将所提出的分类器与基础 WGAN 结合,在每个未见类生成 10 个样本的情况下达到了媲美 SoTAs 的效果。另外我们将其插入到更加先进的 CE-GZSL 方法中,在不改变其他参数(包括生成样本数量)的情况下提升了初始效果。

图片

在消融实验中,我们将基于生成的原型学习器(prototype learner)与纯原型学习器进行了比较。我们发现,最后一个 ReLU 层对于纯原型学习器的成功至关重要,因为将负数置零可以增大类别原型与未见类特征的相似度(未见类特征同样经过 ReLU 激活)。然而将部分数值置零也限制了原型的表达,不利于更进一步的识别性能。借助伪未见类样本来弥补未见类信息不仅能在使用 RuLU 时达到更高性能,更能在没有 ReLU 层的情况下实现进一步的性能超越。

图片

在另一项消融研究中,我们将原型学习器与初始分类器进行比较。结果显示当生成大量未见类样本时,原型学习器与初始分类器相比没有优势。而在使用本文提出的 ZLA 技术时,原型学习器显示出其优越性。正如前文所说,这是因为原型学习器和生成模型都在学习语义 - 视觉联系,所以语义信息很难被充分利用。ZLA 使生成的未见类样本能够调整决策边界,而不是仅仅提供未见类信息,从而对原型学习器起到激活作用。

图片

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

14

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

5

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

8

2026.01.29

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

540

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

190

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

323

2026.01.28

php怎么写接口教程
php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

11

2026.01.28

php中文乱码如何解决
php中文乱码如何解决

本文整理了php中文乱码如何解决及解决方法,阅读节专题下面的文章了解更多详细内容。

16

2026.01.28

Java 消息队列与异步架构实战
Java 消息队列与异步架构实战

本专题系统讲解 Java 在消息队列与异步系统架构中的核心应用,涵盖消息队列基本原理、Kafka 与 RabbitMQ 的使用场景对比、生产者与消费者模型、消息可靠性与顺序性保障、重复消费与幂等处理,以及在高并发系统中的异步解耦设计。通过实战案例,帮助学习者掌握 使用 Java 构建高吞吐、高可靠异步消息系统的完整思路。

10

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 3.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

Kotlin 教程
Kotlin 教程

共23课时 | 3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号