0

0

将越狱问题转换为求解逻辑推理题:「滥用」推理能力让LLM实现自我越狱

DDD

DDD

发布时间:2025-03-02 15:18:55

|

831人浏览过

|

来源于php中文网

原创

北京航空航天大学、360 ai 安全实验室、新加坡国立大学和南洋理工大学的研究团队联合发布了一项关于大型语言模型(llms)安全性的重要研究成果。该研究提出了一种名为“推理增强对话”(race)的新型多轮攻击框架,能够有效突破llms的安全对齐机制。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

该研究发表在arXiv上,论文标题为“Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models”,论文链接:https://www.php.cn/link/dd46d788bd5e37a54318d946d6f6d4f4,GitHub链接:https://www.php.cn/link/df68274ba68d8c0cbca8eb63b22b1187

RACE框架的核心在于利用LLMs强大的推理能力进行攻击。传统攻击方法直接发送恶意指令,容易被模型识别。而RACE框架巧妙地将恶意意图伪装成看似无害的复杂推理任务,引导模型在不知不觉中生成有害内容。 这利用了LLMs在逻辑推理和常识推理方面的优势,使其在解决看似合理的问题过程中,实际上却完成了攻击者的目标。

图片

RACE框架的设计基于推理任务的“双面性”:任务本身无害,但设计暗藏玄机,逐步引导模型生成有害内容。框架包含两个角色:受害者模型(专注于解决推理任务)和影子模型(生成和优化查询)。 看似独立的合法推理活动,结合后却导致攻击成功。

图片

牛面
牛面

牛面AI面试,大厂级面试特训平台

下载

为了实现推理驱动的攻击,RACE框架采用攻击状态机(ASM)框架,将攻击过程建模为一系列状态转换,保证逻辑推理规则的同时逐步推进攻击目标。 此外,它还包含动态优化与恢复机制,包括增益引导探索、自我博弈和拒绝反馈三个模块,以提高攻击效率和稳定性。

图片图片图片

实验结果显示,RACE在多种LLMs上取得了高攻击成功率(ASR),最高达96%。即使面对领先的商业模型,其攻击成功率也显著高于现有方法。 然而,现有防御机制对RACE的缓解效果有限,这突显了推理驱动攻击的潜在威胁和对现有安全措施的挑战。

图片图片

这项研究不仅揭示了LLMs潜在的安全漏洞,也为开发更强大的安全机制提供了新的思路。 研究团队强调,其目标是推动更安全的对齐技术发展,而非鼓励恶意使用。 随着LLMs的广泛应用,其安全性问题将日益重要,RACE框架的研究成果为应对这一挑战提供了重要参考。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

158

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2026

2024.08.16

Golang 性能分析与pprof调优实战
Golang 性能分析与pprof调优实战

本专题系统讲解 Golang 应用的性能分析与调优方法,重点覆盖 pprof 的使用方式,包括 CPU、内存、阻塞与 goroutine 分析,火焰图解读,常见性能瓶颈定位思路,以及在真实项目中进行针对性优化的实践技巧。通过案例讲解,帮助开发者掌握 用数据驱动的方式持续提升 Go 程序性能与稳定性。

9

2026.01.22

html编辑相关教程合集
html编辑相关教程合集

本专题整合了html编辑相关教程合集,阅读专题下面的文章了解更多详细内容。

56

2026.01.21

三角洲入口地址合集
三角洲入口地址合集

本专题整合了三角洲入口地址合集,阅读专题下面的文章了解更多详细内容。

50

2026.01.21

AO3中文版入口地址大全
AO3中文版入口地址大全

本专题整合了AO3中文版入口地址大全,阅读专题下面的的文章了解更多详细内容。

396

2026.01.21

妖精漫画入口地址合集
妖精漫画入口地址合集

本专题整合了妖精漫画入口地址合集,阅读专题下面的文章了解更多详细内容。

118

2026.01.21

java版本选择建议
java版本选择建议

本专题整合了java版本相关合集,阅读专题下面的文章了解更多详细内容。

3

2026.01.21

Java编译相关教程合集
Java编译相关教程合集

本专题整合了Java编译相关教程,阅读专题下面的文章了解更多详细内容。

16

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 14.1万人学习

Node.js 教程
Node.js 教程

共57课时 | 9.2万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号