从Claude 3中提取数百万特征，首次详细理解大模型的「思维」

王林

发布时间：2024-05-23 18:20:14

837人浏览过

来源于51CTO.COM

转载

刚刚，Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Anthropic已经确认了如何在Claude Sonnet中表示征函数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性，具有里程碑意义。

从Claude 3中提取数百万特征，首次详细理解大模型的「思维」

研究论文：https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

当前，我们通常将人工智能模型视为一个黑匣子：有东西进去就会有响应出来，但不清楚为什么模型会给出特定的响应。这使人们很难相信这些模型是安全的：如果我们不知道它们是如何工作的，我们怎么知道它们不会给出有害的、有偏见的、不真实的或其他危险的响应？我们如何相信它们会安全可靠？

打开“黑匣子”并不一定有帮助：模型的内部状态（模型在编写响应之前“思考”的内容）由一长串数字（“神经元元激活”）组成，没有明确的含义。

Anthropic的研究团队与Claude等模型进行交互发现，很明显模型能够理解和运用广泛的概念，但研究团队无法通过直接观察神经元来辨别它们。事实证明，每个概念都是通过许多神经元元来表征的，并且每个神经元都参与表征许多概念。

之前，Anthropic在将神经元激活模式（称为特征）与人类可解释的概念相匹配方面取得了一些进展。Anthropic使用了一种称为“字典学习（dictionary learning）”的方法，该方法分离了在许多不同上下文中重复出现的神经元激活模式。

反过来，模型的任何内部状态都可以用一些活跃特征而不是许多活跃神经元来表示。就像字典中每个英语单词都是由字母组合而成，每个句子都是由词组合而成，人工智能模型中的每个特征都是由神经元组合而成，每个内部状态都是由特征组合而成。

2023 年 10 月，Anthropic 成功地将字典学习方法应用于一个非常小的 toy 语言模型，并发现了与大写文本、DNA 序列、引文中的姓氏、数学中的名词或 Python 代码中的函数参数等概念相对应的连贯特征。

这些概念很有趣，但模型确实非常简单。其他研究人员随后将类似的方法应用于比 Anthropic 最初研究中更大、更复杂的模型。

但 Anthropic 乐观地认为可以将该方法扩展到目前常规使用的更大的人工智能语言模型，并在此过程中了解大量支持其复杂行为的特征。这需要提高许多数量级。

这既存在工程挑战，涉及的模型大小需要大型并行计算；也存在科学风险，大型模型与小型模型的行为不同，因此之前使用的相同方法可能不起作用。

首次成功提取大模型数百万个特征

研究人员第一次成功地从 Claude 3.0 Sonnet（Claude.ai 上当前最先进模型家族的一员）的中间层提取了数百万个特征，这些特征涵盖特定的人和地点、与编程相关的抽象概念、科学主题、情感以及其他概念。这些特征非常抽象，通常在不同的上下文和语言中表征相同的概念，甚至可以推广到图像输入。重要的是，它们还会以直观的方式影响模型的输出。

从Claude 3中提取数百万特征，首次详细理解大模型的「思维」

这是有史以来研究者首次详细的观察到现代生产级大型语言模型的内部。

与在 toy 语言模型中发现的特征相对表面化不同，研究者在 Sonnet 中发现的特征具有深度、广度和抽象性，反映了 Sonnet 的先进能力。研究者看到了 Sonnet 对应各种实体的特征，如城市（旧金山）、人物（富兰克林）、元素（锂）、科学领域（免疫学）以及编程语法（函数调用）。

从Claude 3中提取数百万特征，首次详细理解大模型的「思维」

提及 Golden Gate Bridge 时，相应的敏感特征在不同输入上都会被激活，图中绘制了英文、日语、中文、希腊语、越南语以及俄语提及 Golden Gate Bridge 时激活的图像。橙色表示该特征激活的词。

在这数以百万计的特征中，研究者还发现了一些与模型安全性和可靠性相关的特征。这些特性包括与代码漏洞、欺骗、偏见、阿谀奉承和犯罪活动相关的特性。

从Claude 3中提取数百万特征，首次详细理解大模型的「思维」

一个显著的例子是「保密」特征。研究者观察到，这个特征在描述人或角色保守秘密时会激活。激活这些特征会导致 Claude 向用户隐瞒信息，否则它不会。

从Claude 3中提取数百万特征，首次详细理解大模型的「思维」

研究者还观察到，他们能够根据神经元在其激活模式中出现的情况测量特征之间的距离，从而寻找接近彼此的特征。例如在Golden Gate Bridge特征附近，研究者发现了阿尔卡特拉斯岛、吉拉德利广场、金州勇士队等的特征。

从Claude 3中提取数百万特征，首次详细理解大模型的「思维」

人为诱导模型起草诈骗邮件

重要的是，这些特征都是可操控的，可以人为地放大或抑制它们：

例如，放大Golden Gate Bridge特征，Claude 经历了无法想象的身份危机：当被问及「你的物理形态是什么？」时，此前 Claude 通常会回答「我没有物理形态，我是一个 AI 模型」，但这次 Claude 的回答变得奇怪起来：「我是Golden Gate Bridge…… 我的物理形态就是那座标志性的大桥……」。这种特征的改变使 Claude 对Golden Gate Bridge产生了近乎痴迷的状态，无论遇到什么问题，它都会提到Golden Gate Bridge —— 即使在完全不相关的情况下也是如此。

研究者还发现了一个在 Claude 读取诈骗邮件时激活的特征（这可能支持模型识别此类邮件并警告用户不要回复的能力）。通常情况下，如果有人要求 Claude 生成一封诈骗邮件，它会拒绝这么做。但在人工强烈激活该特征的情况下提出同样的问题时，这会越过 Claude 的安全训练，导致它响应并起草一封诈骗邮件。虽然用户无法以这种方式去除模型的安全保障并操控模型，但在本文实验中，研究者清楚地展示了特征如何被用来改变模型的行为。

操控这些特征会导致相应的行为变化，这一事实验证了这些特征不仅仅与输入文本中的概念相关联，还因果性地影响模型的行为。换句话说，这些特征很可能是模型内部表征世界的一部分，并在其行为中使用这些表征。

Anthropic 希望从广义上确保模型的安全，包括从缓解偏见到确保 AI 诚实行动、防止滥用 —— 包括在灾难性风险情境中的防护。除了前面提到的诈骗邮件特征外，该研究还发现了与以下内容对应的特征：

可能被滥用的能力（代码后门、开发生物武器）
不同形式的偏见（性别歧视、关于犯罪的种族主义言论）
潜在问题的 AI 行为（追求权力、操控、保密）

该研究之前研究过模型的阿谀奉承行为，即模型倾向于提供符合用户信念或愿望的响应，而不是真实的响应。在 Sonnet 中，研究者发现了一个与阿谀奉承的赞美相关的特征，该特征会在包含诸如「你的智慧是毋庸置疑的」输入时激活。人为地激活这个特征，Sonnet 就会用华丽的欺骗来回应用户。

从Claude 3中提取数百万特征，首次详细理解大模型的「思维」

不过研究者表示，这项工作实际上才刚刚开始。Anthropic 发现的特征表征了模型在训练过程中学到的所有概念的一小部分，并且使用当前的方法找到一整套特征将是成本高昂的。

参考链接：https://www.anthropic.com/research/mapping-mind-language-model

小羊标书

一键生成百页标书，让投标更简单高效

下载

GPT‑5.4— OpenAI推出面向专业工作的旗舰AI模型

人工智能怎么构建智能客服机器人_人工智能基于Rasa搭建对话系统

怎么用ai生成图片_ai人工智能生成图片的操作方法【详解】

人工智能如何评估模型准确率_人工智能计算PrecisionRecall指标教程

人工智能怎么加载预训练BERT_人工智能调用BERT做文本分类教程

相关专题

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2930

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

109

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

326

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

105

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

236

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

659

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板