0

0

图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架

王林

王林

发布时间:2023-04-14 16:31:03

|

1150人浏览过

|

来源于51CTO.COM

转载

本文介绍被机器学习顶级国际会议 AAAI 2023 接收的论文 《Improving Training and Inference of Face Recognition Models via Random Temperature Scaling》。论文创新性地从概率视角出发,对分类损失函数中的温度调节参数和分类不确定度的内在关系进行分析,揭示了分类损失函数的温度调节因子是服从 Gumbel 分布的不确定度变量的尺度系数。从而提出一个新的被叫做 RTS 的训练框架对特征抽取的可靠性进行建模。基于 RTS 训练框架来训练更可靠的识别模型,使训练过程更加稳定,并在部署时提供一个对样本不确定度的度量分值,以拒识高不确定的样本,帮助建立更鲁棒的视觉识别系统。大量的实验表明 RTS 可以稳定训练并输出不确定度度量值来建立鲁棒的视觉识别系统。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片


  • 论文地址:https://arxiv.org/abs/2212.01015
  • 开源模型:https://modelscope.cn/models/damo/cv_ir_face-recognition-ood_rts/summary

背景

不确定性问题:视觉识别系统在真实场景中通常会遇到多种干扰。例如:遮挡(装饰物或者复杂的前景),成像模糊(焦点模糊或者运动模糊),极端光照(过曝或者曝光不足等)。可以把这些干扰都归纳为噪声的影响,此外还有误检图片,通常有猫脸或狗脸等,这些误检测的数据被称作 out-of-distribution(OOD)数据。对于视觉识别来说,上述的噪声和 OOD 数据都构成了不确定性的来源,受到影响的样本会在基于深度模型提取的特征上叠加不确定性,给视觉识别系统带来干扰。例如若底库图被不确定干扰的样本污染,会形成 “特征黑洞”,给视觉识别系统带来隐患。因此需要对表征可靠性进行建模。

表征可靠性建模相关工作

传统多模型解法

传统的在视觉识别链路中对可靠性进行控制的方法是通过一个独立的质量模型完成的。典型的图像质量建模的方式如下:

1、收集标注数据进行具体影响质量因素的标注,比如清晰度如何,有无遮挡以及姿态如何。

2、根据影响因素的标注 label 进行和 1~10 质量分的映射,分数越高对应的质量越好,具体示例可以参考下图左侧示例。

3、由前两步操作得到质量分的标注后进行有序回归训练,从而在部署阶段对质量分进行预测,如下图右侧示例。

图片

独立质量模型的方案在视觉识别的链路中需引入新的模型,且训练依赖标注信息。

DUL

不确定度建模的方法有「Data Uncertainty Learning in Face Recognition」,把特征建模为高斯分布均值和方差的加和,把包含不确定性的特征送入之后的分类器进行训练。从而可以在部署阶段得到和图像质量相关的不确定度的分值。

图片

DUL 用加和的方式描述不确定度,噪声估计值的尺度也和某一类数据的特征分布紧密程度相关。如果数据分布是比较紧密的,那么 DUL 估计出的噪声的尺度也是比较小的。在 OOD 领域的工作指出,数据分布的密度对于 OOD 识别来说不是一个好的度量方式。

GODIN

OOD 领域的工作「Generalized odin: Detecting out-of-distribution image without learning from out-of-distribution data」用联合概率分布的形式处理 OOD 数据,分别用两个独立的分支 h(x) 和 g(x) 估计分类概率值和温度调节值。

图片

由于温度值被建模为概率值,范围被限制在 0-1 之间,对温度没有进行更好的建模。

方法

针对上述问题和相关工作,本文从概率视角出发,对分类损失函数中的温度调节因子和不确定度之间的关联进行分析,提出了 RTS 训练框架。

图片

基于概率视角对温度调节因子进行分析

首先对温度调节因子和不确定度之间的关联进行分析。设不确定度图片是符合标准 Gumbel 分布的随机变量,则概率密度函数可以写为

图片,累积分布函数为图片分类为 k 类的概率值为:

图片

将 图片带入上式可以得到:

图片

可以看到,分类为 k 类的概率值就是符合 softmax 函数的分值,同时我们可以用一个 t 来调节不确定度的尺度,即,则符合标准 Gumbel 分布:

图片

可以看到,此时分类为 k 类的概率值就是符合带温度调节值为 t 的 softmax 函数的分值。

对温度进行建模

为了减少不确定度估计对分类的影响,温度 t 需要在 1 附近,因此我们把温度 t 建模为图片个独立 gamma 分布变量的和:图片式中图片,这样 t 服从图片

,beta = frac {alpha - 1}{v})$ 分布。v 和图片对分布的影响如下图。

图片

对温度建模的约束在训练中用下述的正则项实现

图片

训练方式

整体的算法整理为:

图片

更多详细的分析和理论证明请参见论文。

结果

在训练阶段,训练数据只包含 face 训练数据的。误检测的猫脸和狗脸的 OOD 数据,用来在测试时验证对 OOD 数据的识别效果和测试说明 OOD 样本不确定度在训练过程中不同阶段的动态过程。

训练阶段

我们画出了 in-distribution 数据(face)和 out-of-distribution 数据(误检测为 face 的猫脸和狗脸)在不同 epoch 数的不确定度分值,从下图可以看到初始阶段所有样本的不确定度分值都分布在较大值的附近,随着训练的进行,OOD 样本的不确定性逐渐升高,face 数据的不确定度逐渐降低,且 face 质量越好,不确定度就越低。通过设置阈值可以区分 ID 数据和 OOD 数据,且通过不确定度的分值反应图像质量。

图片

为了说明在训练阶段对噪声训练数据的鲁棒性。本文对训练集施加不同比例的噪声,基于不同比例噪声训练数据的模型识别效果如下表,可以看到 RTS 对基于噪声数据的训练也能得到较好的识别效果。

图片

部署阶段

下图表明在部署阶段 RTS 框架得到的不确定度分值和 face 质量呈现高相关性

图片

同时在 benchmark 上绘制了去掉低质量样本之后的错误匹配曲线。根据得到的不确定度分值,按照不确定度从高到底的顺序把 benchmark 中不确定度较高的样本去除,然后绘制剩下样本的错误匹配曲线。从下图可以看到,随着过滤的不确定性较高的样本越多,错误匹配是越少的,而去掉相同数量的不确定性样本时,RTS 的错误匹配更少。

图片

为了验证不确定度分值对 OOD 样本的识别效果,在测试时构建 in-distribution 数据集(face)和 out-of-distribution 数据集(误检测为 face 的猫脸和狗脸)。数据样例如下。

图片

我们从两个方面来说明 RTS 的效果。首先绘制不确定度的分布图,从下图可以看到,RTS 方法对 OOD 数据具有较强的区分能力。

图片

同时还绘制了 OOD 测试集上的 ROC 曲线,计算了 ROC 权限的 AUC 值,可以看到 RTS 的不确定度分值对 OOD 数据可以较好的识别。

图片

灵机语音
灵机语音

灵机语音

下载

图片

通用识别能力

在 benchmark 上测试通用识别能力,RTS 在不影响 face 识别能力的基础上增加了对 OOD 数据的识别能力。使用 RTS 算法可以在识别和 OOD 数据识别上取得一个均衡的结果。

图片

图片

应用

本文模型已在 modelscope 开源。另外给大家介绍下 CV 域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):

1.https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary

2.https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary

3.https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary

4.https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary

5.https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary

6.https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary

7.https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary

8. https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary

9.https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary

10.https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary

11.https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary

12.https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

49

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

89

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

59

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

99

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

173

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
从零开始到WEB响应式布局
从零开始到WEB响应式布局

共80课时 | 19.6万人学习

Rust 教程
Rust 教程

共28课时 | 6.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号