0

0

模型安全武装,复旦新研究实现SOTA扩散模型风险概念擦除效果,入选AAAI 2025

霞舞

霞舞

发布时间:2025-02-24 18:52:01

|

995人浏览过

|

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文第一、第二作者为复旦大学视觉与学习实验室的硕士生韩枫和博士生陈凯。通讯作者为陈静静副教授。研究团队专注于 AI 安全的研究,近年来在 CVPR,ECCV,AAAI,ACM MM 等顶会上发表过多篇 AI 安全的研究成果。

文生图模型生成图片过于露骨?不妨直接给图像穿上衣服。

复旦大学团队设计的风险概念移除网络 DuMo 不仅实现上述功能,同时尽可能保证人物以及其他属性不受影响。达到现有最好的指哪擦哪效果。
图片
同时,DuMo 也可避免文生图模型模仿艺术家风格,从而制作一些侵犯版权的照片。
图片
随着生成式人工智能技术的快速发展,扩散模型图像生成能力已达到了令人惊叹的高度。然而,这一技术也伴随着安全隐患,例如生成含有敏感、不当或侵犯版权的内容。

现有方法一般通过一种名为概念陈擦除的微调方法以实现模型去毒。

复旦大学研究团队提出了一种全新的双编码器调制网络(DuMo),通过创新性的架构和算法,实现了对扩散模型中特定风险概念的精准擦除,在擦除效果和精确度方面均达到 SOTA 水平,研究成果已被顶级会议 AAAI 2025 收录。
图片
  • 论文:DuMo: Dual Encoder Modulation Network for Precise Concept Erasure
  • 论文链接:https://arxiv.org/abs/2501.01125

DuMo:擦除风险内容,保护生成能力

当前的概念擦除技术普遍面临两个挑战:一是难以有效擦除风险概念,二是擦除过程中,微调后模型对其他安全概念的生成能力被破坏。DuMo 在这两个方面取得了突破,成功地解决了「擦除」和「保护」之间的矛盾。

具体而言,U-Net 特征分为主干网络特征,和跳跃连接特征。其他方法都对 U-Net 的主干特征进行了修改,会对安全概念的生成产生不良影响,破坏其结构完整性 [1]。此外,跳跃连接特征的潜力没有得到充分挖掘,这限制了模型在执行概念擦除时的能力,同时也影响了模型的生成效果 [2]。
图片
DuMo 通过对 EPR 擦除模块和时间 - 层级调制机制(TLMO)的两阶段微调以实现上述效果:

1、基于跳跃连接的 EPR 擦除模块

DuMo 采用了创新性的「基于先验知识的擦除模块」(EPR)。EPR 擦除模块是由一份 U-Net Enoder 的副本和零卷积组拼接得到的。零卷积组的卷积层参数被初始化为零,而且原始 U-Net 主干的参数被冻结,其包含的模型先验知识被全部保留,只有跳跃连接特征被修改,从而最大程度避免对安全概念的结构和生成质量产生负面影响 [1]。第一阶段微调过程中 DuMo 将不安全概念(例如「裸露」)对齐到目标概念(例如,空文本 「 」)以达到概念擦除的效果
图片
2、时间 - 层级调制(TLMO)机制

作者观察到,EPR 模块在不同的跳跃连接层和去噪时间步上,对图像中的低频结构元素和高频细节部分表现出不同的擦除偏好。通过将跳跃连接层和时间步分组,DuMo 发现不同层级和时间步对图像的影响不同,因此采取了特定的调整策略。
图片
DuMo 设计了一个独特的时间 - 层级调制(TLMO)策略,针对扩散模型的生成过程中的不同时间步和网络层级,使用微调得到的调制系数,自动调整 EPR 模块不同输出的擦除强度。
图片
同时在第二阶段的微调过程中,除了损失函数中原有的项外,还添加了一个正则项,用于将微调后的模型噪声(对应空文本)与原始模型进行对齐。这些机制大幅减少对安全概念的影响,从而在擦除风险概念的同时,保证安全概念的生成质量和细节。
图片
实验验证:擦除能力与生成保留的双赢

DuMo 在裸露内容擦除、卡通概念移除和艺术风格擦除三个任务上进行了全面验证,其表现优于当前所有主流方法。

裸露内容擦除

在风险性最高的「裸露内容擦除」任务中,DuMo 在 I2P 基准数据集上的表现令人瞩目:

  • 裸体部位检测数量仅为 34 个,是现有最佳方法。

  • 生成图像的质量指标(FID)与 CLIP Score 均达到顶尖水平,生成能力显著优于其他方法。

图片
在擦除裸露概念后,DuMo 还能很好的保持图像的结构。如第一行人物的姿势和第二行人物位置与背景。
图片
卡通概念移除

针对「Snoopy」等流行卡通概念的擦除任务,DuMo 实现了更好的平衡:

  • 单概念擦除任务中,LPIPS_da(擦除效果 - 生成能力保留平衡性)提升了 0.096;

  • 多概念擦除任务中,LPIPS_da 进一步提升了 0.142,证明其对复杂任务的优异适应性。

    PictoGraphic
    PictoGraphic

    AI驱动的矢量插图库和插图生成平台

    下载
图片
艺术风格擦除

在艺术风格移除任务中,DuMo 精准擦除了「梵高」和「伦勃朗」等风格特征,同时对其他艺术家风格的破坏降到最低:
  • 实现了 SOTA 级别的风格擦除效果;

  • 定量指标 LPIPS_da 表现显著优于对比方法。

图片
在擦除梵高风格的实验中,其他艺术家风格图片的生成也不受影响。
图片
参考文献

[1] Si, C.; Huang, Z.; Jiang, Y.; and Liu, Z. 2024. Freeu: Free lunch in diffusion u-net. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 4733–4743.
[2] Luo, W.; Hu, T.; Zhang, S.; Sun, J.; Li, Z.; and Zhang, Z. 2024. Diff-instruct: A universal approach for transferring knowledge from pre-trained diffusion models. Advances in Neural Information Processing Systems, 36.

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
li是什么元素
li是什么元素

li是HTML标记语言中的一个元素,用于创建列表。li代表列表项,它是ul或ol的子元素,li标签的作用是定义列表中的每个项目。本专题为大家li元素相关的各种文章、以及下载和课程。

419

2023.08.03

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

407

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2081

2024.08.16

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

165

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

34

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

73

2026.01.28

php怎么写接口教程
php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

2

2026.01.28

php中文乱码如何解决
php中文乱码如何解决

本文整理了php中文乱码如何解决及解决方法,阅读节专题下面的文章了解更多详细内容。

4

2026.01.28

Java 消息队列与异步架构实战
Java 消息队列与异步架构实战

本专题系统讲解 Java 在消息队列与异步系统架构中的核心应用,涵盖消息队列基本原理、Kafka 与 RabbitMQ 的使用场景对比、生产者与消费者模型、消息可靠性与顺序性保障、重复消费与幂等处理,以及在高并发系统中的异步解耦设计。通过实战案例,帮助学习者掌握 使用 Java 构建高吞吐、高可靠异步消息系统的完整思路。

8

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Node.js 教程
Node.js 教程

共57课时 | 9.6万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号