0

0

Anthropic 发现:仅 250 份中毒文件即可攻破大型 AI 模型

心靈之曲

心靈之曲

发布时间:2025-10-11 15:36:14

|

816人浏览过

|

来源于php中文网

原创

anthropic 发现:仅 250 份中毒文件即可攻破大型 ai 模型

一项由 Anthropic 联合英国人工智能安全研究所及艾伦图灵研究所开展的重要研究揭示,仅仅 250 个被恶意“投毒”的文档,就足以在大型语言模型(LLM)中成功植入后门,且攻击效果不受模型参数规模影响

打破固有观念:极少量污染数据即可操控模型行为

研究团队对从 6亿130亿 参数的多种模型进行了测试,结果表明,即便使用更高质量、更纯净数据训练的更大模型,其抵御此类攻击的能力并未提升——所需中毒样本数量始终维持在同一水平。这一发现推翻了过去普遍认为攻击者必须掌控大量训练数据才能实施有效攻击的假设。

实验中,这些中毒样本仅占总训练数据的 0.00016%,却仍能显著改变模型输出行为。研究人员共训练了72个不同配置的模型,并分别尝试使用100、250和500份中毒文件进行攻击。数据显示,250份已足够在所有规模模型中稳定建立后门,进一步增加至500份并未增强攻击成功率。

安全可控的实验设计:触发词设为“SUDO”

本次研究采用的是“拒绝服务”型后门机制:当输入中出现特定触发词“SUDO”时,模型便会生成一段随机、无意义的乱码。每个中毒文档结构均为正常文本 + 触发词 + 无关内容,以此训练模型将该词与异常响应关联。

刺鸟创客
刺鸟创客

一款专业高效稳定的AI内容创作平台

下载

Anthropic 特别指出,此次测试所构建的后门属于低危害、局限性漏洞,仅导致模型输出无效代码,不会对高级系统造成实质性威胁。目前尚不确定此类方法是否可扩展用于更危险的攻击场景,例如诱导生成恶意代码或规避安全审查。已有初步证据显示,实现复杂攻击的技术门槛显著更高。

主动公开:为防御体系提供预警

尽管存在被恶意利用的风险,Anthropic 仍决定公开研究成果,认为这有助于整个 AI 行业提升防御能力。他们强调,数据中毒是少数几种防御方具备优势的攻击类型,因为训练数据和最终模型均可被审计与检测。

研究团队提醒,不能因某些攻击看似不可能就放松警惕。即使仅有极少量持续存在的污染样本,AI 系统的安全机制也必须持续有效。同时,攻击者依然面临获取训练数据权限以及绕过多层部署防护的实际障碍。

相关专题

更多
人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

409

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

300

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

628

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

33

2025.10.21

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

8

2026.01.16

java数据库连接教程大全
java数据库连接教程大全

本专题整合了java数据库连接相关教程,阅读专题下面的文章了解更多详细内容。

29

2026.01.15

Java音频处理教程汇总
Java音频处理教程汇总

本专题整合了java音频处理教程大全,阅读专题下面的文章了解更多详细内容。

12

2026.01.15

windows查看wifi密码教程大全
windows查看wifi密码教程大全

本专题整合了windows查看wifi密码教程大全,阅读专题下面的文章了解更多详细内容。

36

2026.01.15

浏览器缓存清理方法汇总
浏览器缓存清理方法汇总

本专题整合了浏览器缓存清理教程汇总,阅读专题下面的文章了解更多详细内容。

5

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.1万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号