拥有自我意识的AI：AutoGPT

WBOY

发布时间：2023-05-25 10:28:20

2396人浏览过

来源于51CTO.COM

转载

1、引言

ChatGPT在当下已经风靡一时，作为自然语言处理模型的佼佼者，ChatGPT的优势在于其能够生成流畅、连贯的对话，同时还能够理解上下文并根据上下文进行回答。针对不同的应用场景可以进行快速定制，例如，在客服、教育、娱乐等领域中，ChatGPT可以作为智能助手为用户提供便捷的服务和娱乐体验。

从GPT-3到GPT-4，我们可以看到在高级推理，输入设置，微调行为和理解更长的上下文信息等方面，ChatGPT在不断的优化训练中已经取得了显著的进展。

但是针对于这种交互式的GPT模型，我们更希望看到能像电影里的人工智能，拥有自我意识，可以进行自我学习和进化。不需要通过频繁的引导和交互，我们只需要简单提出一个目标，AI就能自主的完成所有的执行规划和逻辑处理，并不断进行自我论证和优化，最后完成我们提出的目标。

那么今天它来了，它就是ChatGPT的进化版本：AutoGPT。

2、什么是AutoGPT？

AutoGPT 是一个实验性开源应用程序，它利用 OpenAI 的GPT-4语言模型来创建完全自主和可定制的 AI 代理。它于 2023 年 3 月 30 日由 Toran Bruce Richards 发行。

游戏开发者toran创立了一家名为significant gravitas的游戏公司。

在短短的一个多月时间里，AutoGPT的Git项目已经获得了超过120万的star，作为 GPT-4 完全自主运行的首批示例之一，AutoGPT 突破了 AI 的可能性界限。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

与其他 AI 工具相比，AutoGPT 是独一无二的，因为它独立运行，这意味着你不再需要操纵模型来满足你的需求。相反，你只需要写下你的目标，然后 AI 会为你完成剩下的工作。因此，AutoGPT 从根本上改变了 AI 与人类之间的交互方式，人类不再需要发挥积极作用，同时仍然保持与 ChatGPT 等其他 AI 应用程序相同或更好的结果质量。

3、AutoGPT 如何工作？

AutoGPT 基于自主 AI 机制工作，其中 AI 系统创建不同的 AI 代理来满足特定任务，其中包括：

任务创建代理：当你在 AutoGPT 上输入目标时，第一个与任务创建代理交互的 AI 代理。根据你的目标，它将创建一个任务列表以及实现这些目标的步骤，并将其发送给优先级代理。
任务优先级代理：收到任务列表后，优先级 AI 代理会确保顺序正确且符合逻辑，然后再将其发送给执行代理。
任务执行代理：完成优先级排序后，执行代理将一个接一个地完成任务。这涉及利用 GPT-4、互联网和其他资源来获得结果。

拥有自我意识的AI：AutoGPT

上述代理之间相互通信。所以当执行代理完成所有任务，结果不理想时，它可以与任务创建代理通信，创建新的任务列表。三个代理之间的迭代循环，直到完成所有用户定义的目标。

AI 代理的行为也显示在用户界面上，将它们分为四组：思想、推理、计划、评判。

思想（THOUGHTS）：AI 代理分享它对目标的想法。
推理（REASONING）：AI 代理推理如何开展并实现它的想法。
计划（PLAN）：AI代理通过分析，列举了所要完成任务的计划。
评判（CRITICISM）：AI进行自我评判，纠正错误并克服任何限制问题。

通过共享此计算流程，AutoGPT 可以进行反复尝试论证，并进行针对性的优化处理，可以在没有任何用户干预的情况下克服所遇到的所有问题。

4、AutoGPT和ChatGPT的对比？

虽然底层的 LLM 模型是相同的，但是 AutoGPT 和 ChatGPT 之间还是有不少区别。

4.1 实时洞察

ChatGPT 使用的最新 GPT-4 模型是在与 GPT-3.5 相同的数据上训练的，该数据仅到 2021 年 9 月，你无法使用 ChatGPT 获得实时数据信息，因为你无法访问网站和在线平台来获取信息和提取信息。

相比之下，AutoGPT 可以访问互联网。它不仅可以上网冲浪，还可以验证来源是否合法。此外，AutoGPT 可以访问任何平台来执行任务。例如，如果你要求 AI 研究销售产品的前景并发送外联电子邮件，它会直接使用你的 Gmail 帐户起草并发送电子邮件。

4.2 内存管理

上下文窗口对于语言模型给出准确答案非常重要。但在像 GPT-4 这样的 LLM 中，窗口有 4000 到 8000 个令牌的限制。因此，如果要求超出限制，模型可能无法正确遵循所有指令，或者可能偏离正切并提供不可靠的输出。

相比之下，AutoGPT 擅长短期和长期内存管理。通过使用数据库，本地Cache和Redis进行内存管理，可以存储大量上下文信息或以前的经验，让AI模型做出更好的决策。

4.3 图像生成

AutoGPT 能够生成图像，因为它可以使用多种图像生成引擎，默认使用DALL-E 。如果你想为你的 AI 代理启用图像生成功能，你需要访问 DALL-E 的 API。尽管是多模式输入方式，但此功能目前在 ChatGPT-4 中不可用。

3.4 文字转语音

你可以通过在命令行中键入python -m autogpt --speak在 AutoGPT 上启用文本到语音转换。但是每次与 AutoGPT 交互时都必须输入命令。你还可以通过将 AutoGPT 连接到多功能 AI 语音软件 Eleven Labs，为语音添加不同的声音。

5、AutoGPT 的局限性

毫无疑问，自主性为AI系统增加了一个新的维度。同时，我们也不能忽视AutoGPT的局限性和风险。下面列出了你必须知道的一些关键限制。

5.1 成本高昂

虽然功能令人惊叹，但 AutoGPT 的实用性可能会让你失望。由于 AutoGPT 使用昂贵的 GPT-4 模型，因此即使是小任务，完成每个任务的成本也可能很高。这主要是因为 AutoGPT 在特定任务的步骤中会多次使用 GPT-4。

5.2 经常陷入循环

用户在使用 AutoGPT 时面临的最常见问题是它陷入循环。如果这种情况持续超过几分钟，则可能意味着你必须重新启动该过程。发生这种情况是因为 AutoGPT 依赖 GPT-4 来正确定义和分解任务。因此，如果底层LLM返回结果不足以让 AutoGPT 采取任何行动就会出现反复尝试的问题。

5.3 数据安全性

由于AutoGPT经过充分授权，能自主运行并访问你的系统和互联网，例如使用你的twitter账号，登录github，使用搜索引擎等，因此你的数据可能会被泄露。AutoGPT没有安全代理，所以你在使用 AutoGPT 时必须小心，如果没有给出正确的说明和安全指南，你不能让模型继续运行。

5、如何安装 AutoGPT？

与其他人工智能工具不同，AutoGPT 没有简单的注册程序来访问其平台和功能。在开始使用 AutoGPT 之前，你必须下载各种软件以满足要求。以下是详细的步骤要求：

第一步：下载必备软件

首先你需要有一个Git账号，同时需要安装Python3.1.0或者更高版本，此外你必须还能熟练使用常用的shell命令或者有Docker容器进行项目启动和配置。

第二步：设置你的 OpenAI API 密钥

如果你还没有，请创建一个 OpenAI 帐户（当然如果你在国内想要创建账号不是一件简单的事情，你可以参考网上其他文章进行账号申请）。打开OpenAI帐户后，打开USER - API keys转到 API 密钥选项卡。你将看到一个用于创建密钥的选项。单击它，然后复制密钥。

拥有自我意识的AI：AutoGPT

第三步：克隆最新版本的AutoGPT

（1）clone项目

打开命令行工具通过命令git clone https://github.com/Torantulino/Auto-GPT.git 将项目clone到本地

拥有自我意识的AI：AutoGPT

（2）执行安装

通过命令cd Auto-GPT && ls -al进入目录后，可以看到有很多的文件，其中一个文件是 requirements.txt。在此文件中，你将看到运行 AutoGPT 所需的模块。

拥有自我意识的AI：AutoGPT

要安装这些模块，可以使用命令pip install -r requirements.txt 进行下载安装。

拥有自我意识的AI：AutoGPT

（3）修改配置

通过命令vim .env.template your-openai-api-key)，配置完成后执行mv .env.template .env 使配置生效

拥有自我意识的AI：AutoGPT

其他相关的配置可以参考表格按需进行

LLM PROVIDER	可以配置OPENAI_API_KEY，是否使用AZURE
LLM MODEL SETTINGS	可以配置openAI提供的token限制，避免过度调用成本浪费，默认4000-8000
LLM MODELS	LLM 底层语言模型，默认可以选择GPT-4或者gpt-3.5-turbo
MEMORY	内存管理，可以配置local，redis，PINECONE，MILVUS等
IMAGE GENERATION PROVIDER	图像生成，可以配置图像大小和图像生成引擎：dalle，HUGGINGFACE，STABLE DIFFUSION WEBUI
AUDIO TO TEXT PROVIDER	语音转文字，可以配置HUGGINGFACE Summarizer 基于 AI 的文本段落摘要生成器下载
GIT Provider for repository actions	github配置，通过配置github api key用于访问和管理github
WEB BROWSING	搜索引擎管理，可以配置不同的浏览器：firefox，chrome，safari，搜索引擎：google等授权open api用于访问互联网获取信息和管理访问深度
TTS PROVIDER	可以使用MAC OS、STREAMELEMENTS和ELEVENLABS来进行文本转语音的配置
TWITTER API	twitter账号管理，管理配置你的twitter账号，配置token用于访问对应的api
AUTO-GPT - GENERAL SETTINGS	AutoGPT的一些默认配置，例如存放目录，开关，user Agent ，AI settings等

（4）开始使用

在完成以上配置以后，就已经完成了AutoGPT的基本配置，这时候就可以通过命令python -m autogpt 开启你的AutoGPT之旅！

拥有自我意识的AI：AutoGPT

从上图可以看出，AutoGPT需要你为AI取一个名字[Name]，一个角色定位[Role]，同时你可以为它制定目标[Goals]（最多5个目标，如果你仅有一个目标就直接回车）。

在你制定完成目标以后，AutoGPT会进行自主思考并分析你的目标[THOUGHTS]，思考完成后开始理解并推理如何去完成这个目标[REASONING]，然后开始自主拆解成具体的计划[PLAN]，最后会提出评判[CRITICISM] 用以保证 AI 代理纠正错误并作出正确的决断。

完成以上的行为规划后，AutoGPT会提示它将要作出的指令和动作[NEXT ACTION]，里面包含具体执行的命令[COMMAND]和参数[ARGUMENTS]，用户可以在此时可以对风险命令进行识别，避免出现数据泄露等预期外的风险，这里可以通过y或者n进行授权或者拒绝AutoGPT接下来的指令动作。

拥有自我意识的AI：AutoGPT

AutoGPT会通过以上步骤，进行多次循环，由于AutoGPT可以存储上下文和历史经验，所以每一次都会根据反馈结果进行更深入的思考，制定出更优的方案，最后列举他要执行的计划，反复尝试和补充，直到达到你预期的目标。

（5）Docker使用

当然，你也可以使用docker运行：

<code>// 最简单的方式就是通过docker-composedocker-compose build auto-gptdocker-compose run --rm auto-gpt// 使用docker命令构建docker build -t auto-gpt .docker run -it --env-file=.env -v $PWD:/app auto-gpt</code>

你可以传递额外的参数，例如，运行方式--gpt3only和--continuous模式：

<code>// docker-composedocker-compose run --rm auto-gpt --gpt3only --continuous// docker docker run -it --env-file=.env -v $PWD:/app --rm auto-gpt --gpt3only --continuous</code>

6、总结

与传统的文本生成技术相比，我们发现AutoGPT的能力进化令人震惊，它可以通过分析你的目标，自动拆解成它需要执行的任务，并在执行的过程中根据已有的经验和决策不断优化完善和总结，同时AutoGPT获取信息的手段也非常丰富，它能通过搜索引擎搜索，github，网页工具等渠道下载和提炼所需要的信息，通过本地缓存，语音转化，图像生成等插件能力，最终完成你所设立的目标。这种自我意识，自我迭代和更新的形态已经非常接近于电影《流浪地球》里的moss这种人工智能！

最后问题来了，这篇文章是AutoGPT自动生成的吗？

QClaw怎么绑定QQ号_QClawQQ通道开通与双端登录【操作】

workbuddy基本功能有哪些_workbuddy核心功能详解【详解】

LMStudio如何加载AI模型_LMStudio模型加载操作方法【教程】

GitHubCopilot新手怎么安装_GitHubCopilot插件安装方法【方法】

WorkBuddy如何实现电脑本地大模型的离线调用_WorkBuddy隐私模式设置【安全】

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

117

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

350

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

109

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

243

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

684

2026.03.04