0

0

基于对抗梯度的探索模型及其在点击预估中的应用

WBOY

WBOY

发布时间:2023-04-13 23:34:01

|

1784人浏览过

|

来源于51CTO.COM

转载

1. 摘要

排序模型在广告、推荐和搜索系统中起到了至关重要的作用。在排序模块中,点击率预估技术又是重中之重。目前工业界的点击率预估技术大多采用深度学习算法,基于数据驱动来训练深度神经网络,然而数据驱动带来的相应问题是推荐系统中的新进项目会存在冷启动问题。

探索与利用(Exploration-Exploitation,E&E)方法通常用于处理大规模在线推荐系统中的数据循环问题。过去的研究通常认为模型预估不确定度高意味着潜在收益也较高,因此大部分研究文献聚焦到对不确定度的估计上。对于采用流式训练的在线推荐系统而言,探索策略会对训练样本的收集产生较大影响,进而影响模型的进一步学习。然而,当前大多数探索策略并不能很好的建模被探索的样本如何对后续模型学习产生影响。因此,我们设计了一个拟探索(Pseudo-Exploration) 模块来模拟样本被成功探索并展现后对推荐模型后续学习的影响。

拟探索过程通过在模型输入中添加对抗扰动来实现,我们同时也给出了该过程相应的理论分析以及证明。基于此,我们将该方法命名为基于对抗梯度的探索策略( A dversarial G radient driven E xploration,以下简称 AGE )。为了提高探索的效率,我们还提出了一个动态门控单元用来过滤低价值样本,避免将资源浪费在低价值的探索上。为了验证AGE算法的有效性,我们不仅在公开学术数据集上进行了大量的实验,也将AGE模型部署到了阿里妈妈展示广告平台上并取得了良好的线上收益。该工作已被KDD 2022 Research Track收录为Full Paper,欢迎阅读交流。

论文: Adversarial Gradient Driven Exploration for Deep Click-Through Rate Prediction

下载: https://arxiv.org/abs/2112.11136

2. 背景

在广告系统中,点击率(CTR)预估模型通常采用流式方式加以训练,而流式数据的来源又是由部署在线上的CTR模型产出,这就产生了所谓的 数据循环 问题。冷启动与长尾广告由于没有充分展现,CTR模型缺乏对这部分广告的训练数据,这也导致模型对这部分广告的估计可能存在较大误差,会使得这些广告更加难以展现,进而难以完成冷启动过程。具体而言,图一给出了广告真实点击率与展现数量之间的关系:我们系统中,一个新广告的展现平均需要达到约一万次,其点击率才能达到收敛态。这给许多在线系统带来了一个常见的难题,即如何在保证用户体验的前提下,为这些广告做好冷启动。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

基于对抗梯度的探索模型及其在点击预估中的应用

图一:广告CTR和展现次数之间的关系

探索和利用(E&E)算法通常被用来解决上述问题。在推荐或广告系统中,常见的方法(如Contextual Multi-Armed Bandits,上下文多臂老虎机)一般会将该问题按照如下方式加以建模。在每步中,系统会基于策略P选择一个操作(即为用户推荐一个项目_ _)。为了最大化累积奖励(通常使用总点击量来衡量),系统需要权衡当前是偏重探索,还是偏重利用。先前的研究通常认为,高不确定性是潜在回报的衡量指标。一方面,策略P需要优先选择当前效用较大的项目以最大化本轮收益;另一方面,算法也需要选择不确定度较大的操作以实现探索。如果用来表示权衡探索和利用的策略,那么系统对项目最终打分可以用如下公式表示:

不确定性估计已成为许多E&E算法的核心模块。不确定性可能源于数据的可变性、测量噪声和模型不稳定性(例如:参数的随机性),典型的估计方法包括蒙特卡洛MC-Dropout、贝叶斯神经网络、预测不确定性的高斯过程,以及基于梯度范数(模型权重)的不确定性建模等。在此基础上,有两种典型的探索策略:基于UCB的方法通常采用潜在回报的上限作为最终打分[1,2],而基于汤普森采样的方法是通过从估计的概率分布中抽样来完成 [3]。

3. 方法介绍

我们认为,上述方法并未考虑一个完整的探索闭环。对于数据驱动的在线系统而言,探索的最终收益来自于从探索过程中获取的反馈数据,以及反馈数据对于模型的训练与更新。而模型预估的不确定度本身并不能完全反映整个反馈闭环。为此,我们引入了一个拟探索模块,用于模拟完成探索动作后反馈数据对于模型的影响,并以此来衡量探索的有效性。分析发现,探索的有效性不仅取决于模型的预估不确定度,还取决于“对抗扰动”的大小。所谓对抗扰动,指的是在模型的输入上加入的固定模长的扰动中使得模型输出变化最大的扰动向量。在论文中,我们也证明了,模型利用被探索的数据进行一次训练后,模型输出变化的期望等价于在输入向量中加入模长为不确定度、扰动向量为对抗梯度的增量向量。我们验证了按照这种方式进行建模,可以闭环地估计出被探索样本对模型的后续影响,从而估计出被探索样本的真实价值。

我们将这种方法称为 基于对抗梯度的探索(Adversarial Gradient driven Exploration) ,简称AGE。AGE模型由拟探索模块(Pseudo-Exploration Module)与动态门控阈值单元(Dynamic Gating Unit)两部分组成,其整体结构如图二所示。

基于对抗梯度的探索模型及其在点击预估中的应用

图二:AGE结构图

其中部分的详细介绍详见3.1节,部分的详见3.3节。

3.1 拟探索模块(Pseudo-Exploration Module)

3.1.1 模块简介

拟探索模块的主要目的是定量模拟模型使用探索样本加以训练后,对该样本打分的变化,从而估计探索对于模型的闭环影响。经过推导,我们发现可以通过公式(2)来完成上述过程,其中代表了探索后模型对该样本的打分,我们将其用于最终的排序。

上式表示我们不需要对原有模型参数进行任何操作,只需要在输入的表征中加上对抗梯度,预估不确定度以及手工设定的超参数的乘积,即可完成对探索后模型预估分的模拟。 其中参数 与 的计算方法,我们在下一节中介绍。本节后续我们将介绍拟探索模块中公式(2)的详细推导过程。

3.1.2 详细推导

对于每条数据样本而言,模型的训练将会影响两部分参数:该样本对应的表征(包含商品、用户embedding等)与模型参数。因为模型参数在训练中的目标是适应所有样本而不是单条样本,所以我们可以认为训练单条样本主要会对样本对应的表征产生影响,而模型参数本身只需要微小的调整。因此,在后续研究中,我们将忽略的调整,而仅关注样本对应的表征的变化。假设包含表征的样本真实label为,训练时,我们需要寻找到的更新量,以最小化损失函数。基于此,我们定义:

基于对抗梯度的探索模型及其在点击预估中的应用

其中代表训练中使用的损失函数,而在CTR预估任务中一般使用交叉熵损失函数。同时,我们用来约束表征的最大变化。为了简化书写,后续我们将上述公式右侧写为。

依据拉格朗日中值定理,在的二范数接近0的情况下,我们可以将上述损失函数公式(3)推导为:

基于对抗梯度的探索模型及其在点击预估中的应用

我们观察公式(4),易发现该损失函数在与两个向量有相反的方向时,获得最小值。在公式(3)中,我们约束对抗扰动。因此,通过求解公式(3),我们得到:

iMuse.AI
iMuse.AI

iMuse.AI 创意助理,为设计师提供无限灵感!

下载

基于对抗梯度的探索模型及其在点击预估中的应用

实践中,我们用来替代公式(5)中的归一化梯度。通过求导链式法则,可以展开为和两部分。进一步计算,得到:

基于对抗梯度的探索模型及其在点击预估中的应用

在上式中,我们将重新缩放到以保持等式的成立。尽管含义不同,但它们都是手动调节的超参数,故我们可以直接以完成替换。我们进一步简化公式(6)为:

基于对抗梯度的探索模型及其在点击预估中的应用

上式中,归一化梯度表示模型输出相对于输入表征的导数方向。由于真实的用户反馈在探索时无法得到,我们将使用预估不确定度来衡量预测得分与真实用户反馈之间的差值。

公式(7)中,我们找到了在的约束下可以最大化改变模型预测输出的解析解(推导与公式(3)到公式(5)相同)。进一步,我们也发现上述对输入表征添加的过程与对抗扰动(见公式(9))的形式相同。

基于对抗梯度的探索模型及其在点击预估中的应用

因此,我们利用对抗梯度来的替代公式(7)中的,并将我们的方法命名为基于对抗性梯度的探索算法。

公式(9)表明,AGE最有效的探索方式为给表征输入加入对抗扰动,以扰动后模型的输出结果为排序因子:以对抗梯度为输入表征的扰动向量方向,以及以预测不确定性度的扰动力度。于是,在得到和后,我们可以用下述公式来计算探索后的模型预测分数,该公式即为前述公式(2)。

3.2 实现细节

在AGE中,我们采用MC-Dropout的方法估计不确定度。具体说来,MC-Dropout为深度模型中的每个神经元赋予随机Mask权重,具体做法如下公式(11)所示。该方法的一个好处是,我们可以在不改变模型原始结构的基础上直接获取不确定性。在实际操作中,可以通过UCB的思想计算dropout的方差来表示不确定度,或者参考汤普森随机采样的方式通过计算采样与均值的差异来计算不确定度,也即公式(12)和公式(13)。

基于对抗梯度的探索模型及其在点击预估中的应用基于对抗梯度的探索模型及其在点击预估中的应用基于对抗梯度的探索模型及其在点击预估中的应用

归一化对抗梯度可以根据公式(8)中的快速梯度法(FGM)来计算获得。为了更加精确地计算出对抗梯度,我们还可以进一步利用近端梯度下降(PGD)方法,多步迭代更新梯度,如公式(14)所示。

基于对抗梯度的探索模型及其在点击预估中的应用

3.3 动态门控阈值单元(Dynamic Gating Unit)

在实践中,我们发现并非所有广告都值得探索。在一般的Top-K广告系统中,能够为最终用户展现的广告数量是相对较少。因此,本身点击率低的广告(比如广告本身质量较低),即使模型对这部分广告的预估存在很高的不确定性,但考虑广告系统的业务属性,其探索价值仍然是很低的。虽然我们可以通过探索获得了这些广告的大量数据,使得这些广告被模型充分训练而估计的更加准确;但因为这些广告的本身过低的点击率会使得即使充分探索后,这些广告依然无法自行获取流量,这样的探索无疑是低效的。在本文中,我们尝试了一种简单的启发式方法来提高探索的效率——如果模型对该广告的预估分数高于该广告在所有人群中的平均点击率,我们将进行探索;否则,探索将不会发生。

为了计算广告的平均点击率,我们引入了动态门控阈值单元(DGU)模块。DGU仅使用广告侧特征作为输入来预估广告的平均点击率。当模型的预估点击率低于DGU模块预估的广告平均点击率时,不予探索,反之则进行正常的探索。该过程如下式所示:

基于对抗梯度的探索模型及其在点击预估中的应用

最终,我们将代入公式(10)中,获得如下AGE探索模型最终完整的计算方式。

4. 实验评测

4.1 离线实验

我们对比了三大类基线方法,包括基于随机采样的探索方法,基于深度模型的探索方法,以及基于梯度的探索方法,结果如表1所示。观察可得,基于汤普森采样(TS)方法构建的基线模型均优于基于UCB的模型,证明TS是一种更好的衡量模型不确定度的算法。此外,我们可以观察到AGE算法优于所有的基线方法,这也证明了AGE方法的有效性。具体而言,AGE-TS和AGE-UCB的表现均优于最好基线UR-gradient-TS和UR-gradient-UCB [4],提升数值分别为5.41%和15.3%。而AGE-TS方法相比于不进行探索的基准方法提高了整整28.0%的点击量。值得注意的是,基于AGE的UCB和TS算法AGE-UCB和AGE-TS取得了相似的效果,基于gradient的UCB和TS算法并非如此,这也证明了AGE可以弥补UCB方法的不稳定性。

基于对抗梯度的探索模型及其在点击预估中的应用

表1:离线实验结果

我们也进行了大量的消融实验来证明了各个模块的有效性。如表2所示,阈值单元、对抗梯度、不确定度单元,三者均不可或缺。为了进一步确定DGU的效果,我们尝试了不同的固定阈值参数,最后也发现其效果也不及DGU的动态阈值。

基于对抗梯度的探索模型及其在点击预估中的应用

表2:消融实验结果

4.2 在线实验

我们也将AGE模型部署到阿里妈妈展示广告系统中,为了准确评估模型的探索价值,我们设计了基于公平桶的评测方法。如图三所示,我们首先设置桶C和桶D用于收集数据。在桶D中,我们部署AGE等探索算法,而在桶C中,我们采用不做探索的常规CTR模型。经过一段时间之后,我们将桶C和桶D获取的反馈数据分别应用于公平桶A和B上部署模型的训练。最终,我们将比较公平桶A和B上的模型效果。在线实验中,我们使用几个标准指标进行评估,包括点击率CTR、被探索广告的展现数量PV和预测CTR与真实CTR之比PCOC。此外,我们还引入了一个用于衡量广告主的满意度的业务指标(AFR)。

基于对抗梯度的探索模型及其在点击预估中的应用

图三:公平桶实验方案

如表3所示,上述指标都得到了有效的提升。其中,AGE明显优于所有其他方法:CTR和PV分别比基线模型高6.4%和3.0%。同时AGE模型的使用还提升了模型的预测精度,即预估准度PCOC更接近1。更重要的是,AFR指标也有5.5%的提升,这表明我们的探索方法可以有效提升广告主的体验。

基于对抗梯度的探索模型及其在点击预估中的应用

表3:在线实验结果

5. 总结

与大多数专注于估计潜在回报的探索&利用方法不同,我们的方法AGE从在线学习的数据驱动的角度重新构建了这一问题。除了可以估计当前模型预测的不确定度外,AGE算法借助拟探索模块,更进一步地考虑探索样本对模型训练的后续影响。我们在学术研究数据集和生产链路上都进行了A/B测试实验,相关结果均证实了AGE方法的有效性。今后我们会将AGE部署于更多的应用场景中。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

76

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

117

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

350

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

63

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

109

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

243

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

684

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

179

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2.1万人学习

swoole进程树解析
swoole进程树解析

共4课时 | 0.2万人学习

ThinkPHP6.x 微实战--十天技能课堂
ThinkPHP6.x 微实战--十天技能课堂

共26课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号