0

0

HuggingGPT:处理AI任务的神奇工具

WBOY

WBOY

发布时间:2023-05-08 18:40:19

|

1687人浏览过

|

来源于51CTO.COM

转载

简介

人工通用智能(agi)可以被认为是一个人工智能系统,它能够像人类一样理解、处理和响应智力任务。这是一项具有挑战性的任务,需要深入了解人脑的工作方式,以便我们能够复制它。然而,chatgpt的出现引起了研究界对开发此类系统的巨大兴趣。微软已经发布了这样一个由ai驱动的关键系统,名为hugginggpt(microsoft jarvis)。

在深入了解HuggingGPT的新内容以及它工作原理的相关细节之前,让我们首先了解ChatGPT的问题,以及为什么它在解决复杂的AI任务方面很困难。像ChatGPT这样的大型语言模型擅长于解释文本数据和处理一般任务。然而,它们经常在特定任务中挣扎,并可能产生荒谬的反应。你可能在解决复杂的数学问题时遇到过来自ChatGPT的虚假答复。另一方面,我们有专家级的AI模型,如Stable Diffusion和DALL-E等,它们对各自的学科领域有更深入的了解,但在更广泛的任务上却举步维艰。除非我们在LLM和专业AI模型之间建立起联系,否则我们无法完全利用LLM的潜力来解决具有挑战性的AI任务。这就是HuggingGPT所做的,它结合了两者的优势,创造了更有效、更准确、更多的AI系统。

什么是HuggingGPT?

根据微软最近发表的一篇论文,HuggingGPT利用LLM的强大功能,把它作为控制器,将其与机器学习社区(HuggingFace)中的各种AI模型连接起来,使它能够使用外部工具,以提高工作效率。HuggingFace是一个为开发人员和研究人员提供大量工具和资源的网站。它还拥有各种各样的专业和高精确度的模型。HuggingGPT将这些模型用于不同领域和模式的复杂AI任务,从而取得了令人印象深刻的结果。在涉及文本和图像时,它具有与OPenAI GPT-4类似的多模式功能。但是,它也将你连接到互联网上,你可以提供一个外部Web链接来询问有关问题。

假设你想让模型对写在图像上的文字进行音频阅读。HuggingGPT将使用最适合的模型串行地执行这项任务。首先,它将从图像中导出文本,并将其结果用于音频生成。可以在下面的图片中查看响应详细信息。简直太神奇了!

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

HuggingGPT:解决处理AI任务的秘密武器

对视频和音频模式的多模式合作进行定性分析

HuggingGPT是如何工作的?

HuggingGPT:解决处理AI任务的秘密武器

HuggingGPT是一个协作系统,它使用LLM作为接口,向专家模型发送用户请求。从用户提示到模型直到收到响应的完整过程可以分解为以下不连续的步骤:

1.任务规划

在这个阶段,HuggingGPT利用ChatGPT来理解用户的提示,然后将查询分解为小的可操作任务。它还确定了这些任务的依赖关系,并定义了它们的执行顺序。HuggingGPT有四个插槽用于任务解析,即任务类型、任务ID、任务依赖性和任务参数。HuggingGPT和用户之间的聊天记录被记录下来并显示在显示资源历史的屏幕上。

2.模型选择

基于用户环境和可用的模型,HuggingGPT使用一个上下文中的任务-模型分配机制,为一个特定的任务选择最合适的模型。根据这一机制,模型的选择被认为是一个单选题,它最初根据任务的类型筛选出模型。之后,根据下载次数对模型进行排名,因为它被认为是反映模型质量的可靠措施。Top-K模型是根据这个排名选择的。这里的K只是一个反映模型数量的常数,例如,如果它被设置为3,那么它将选择下载次数最多的3个模型。

3.任务执行

在这里,任务被分配给一个特定的模型,它对其进行推理并返回结果。为了提高这个过程的效率,HuggingGPT可以同时运行不同的模型,只要它们不需要相同的资源即可。例如,如果给出一个提示,生成猫和狗的图片,那么不同的模型可以并行运行来执行这个任务。然而,有时模型可能需要相同的资源,这就是为什么HuggingGPT维护一个<resource>属性以保持对资源的跟踪。它确保资源被有效地使用。

4.生成响应

最后一步是生成对用户的响应。首先,它整合了前几个阶段的所有信息和推理结果。这些信息以一种结构化的格式呈现。例如,如果提示是检测图像中狮子的数量,它将绘制具有检测概率的适当的边界框。然后,LLM(ChatGPT)使用这种格式,并以人类友好的语言呈现它。

设置HuggingGPT

HuggingGPT建立在Hugging Face最先进的GPT-3.5架构之上,它是一个深度神经网络模型,可以生成自然语言文本。以下是如何在本地计算机上设置它的步骤:

系统要求

默认配置需要Ubuntu 16.04 LTS,至少24GB的VRAM,至少12GB(最小)、16GB(标准)或80GB(完整)的RAM,以及至少284GB的磁盘空间。此外,需要42GB的空间用于damo-vilab/text-to-video-ms-1.7b,126GB用于ControlNet,66GB用于stable-diffusion-v1-5,50GB用于其他资源。对于“lite”配置,只需要Ubuntu 16.04 LTS。

灵枢SparkVertex
灵枢SparkVertex

零代码AI应用开发平台

下载

开始使用的步骤

首先,将server/configs/config.default.yaml文件中的OpenAI Key和Hugging Face Token替换为你的密钥。或者,你可以将它们分别放在环境变量OPENAI_API_KEY和HUGGINGFACE_ACCESS_TOKEN中

运行以下命令:

对于Server:

  1. 设置Python环境并安装所需的依赖项。
<code># 设置环境cd serverconda create -n jarvis pythnotallow=3.8conda activate jarvisconda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidiapip install -r requirements.txt</code>
  1. 下载所需的模型。
<code># 下载模型。确保`git-lfs`已经安装。cd modelsbash download.sh # required when `inference_mode` is `local` or `hybrid`.</code>
  1. 运行服务器
<code># 运行服务器cd ..python models_server.py --config configs/config.default.yaml # required when `inference_mode` is `local` or `hybrid`python awesome_chat.py --config configs/config.default.yaml --mode server # for text-davinci-003</code>

现在你可以通过向Web API端点发送HTTP请求来访问Jarvis的服务。发送请求到:

  • /hugginggpt端点,使用POST方法访问完整的服务。
  • /tasks端点,使用POST方法访问阶段1的中间结果。
  • /results端点,使用POST方法访问阶段1-3的中间结果。

这些请求应该是JSON格式的,应该包括代表用户输入的信息列表。

对于Web:

  1. 在服务器模式下启动应用程序awesome_chat.py后,在计算机上安装node js和npm。
  2. 导航到web目录并安装以下依赖项:
<code>cd webnpm installnpm run dev</code>
  1. 将http://{LAN_IP_of_the_server}:{port}/设置为web/src/config/index.ts的HUGGINGGPT_BASE_URL,以防你在其他机器上运行Web客户端。
  2. 如果要使用视频生成功能,请使用H.264手动编译ffmpeg。
<code># 可选:安装 ffmpeg# 这个命令需要在没有错误的情况下执行。LD_LIBRARY_PATH=/usr/local/lib /usr/local/bin/ffmpeg -i input.mp4 -vcodec libx264 output.mp4</code>
  1. 双击设置图标,切换回ChatGPT。

对于CLI:

使用CLI设置Jarvis是非常简单的。只需运行下面提到的命令:

<code>cd serverpython awesome_chat.py --config configs/config.default.yaml --mode cli</code>

对于Gradio:

Gradio演示也在Hugging Face Space上托管。你可以在输入OPENAI_API_KEY和HUGGINGFACE_ACCESS_TOKEN后进行试验。

要在本地运行它:

  1. 安装所需的依赖项,从Hugging Face Space克隆项目存储库,然后导航到项目目录
  2. 使用以下命令启动模型服务器,然后启动Gradio演示:
<code>python models_server.py --config configs/config.gradio.yamlpython run_gradio_demo.py --config configs/config.gradio.yaml</code>
  1. 在浏览器中通过http://localhost:7860访问演示,并通过输入各种输入进行测试
  2. 作为选择,你也可以通过运行以下命令以Docker镜像的形式运行该演示:
<code>docker run -it -p 7860:7860 --platform=linux/amd64 registry.hf.space/microsoft-hugginggpt:latest python app.py</code>

注意:如果有任何问题,请参考官方Github Repo(https://github.com/microsoft/JARVIS)。

最后的思考

HuggingGPT也有某些需要在此强调一下的局限性。例如,系统的效率是一个主要瓶颈,在前面提到的所有阶段,HuggingGPT都需要与LLM进行多次交互。这些交互会导致用户体验的降低和延迟的增加。同样,最大的上下文长度也受到允许的令牌数量的限制。另一个问题是系统的可靠性,因为LLM可能会误解提示并产生一个错误的任务序列,这反过来又会影响整个过程。尽管如此,它在解决复杂的AI任务方面具有很大的潜力,并且是AGI的一个很好的进步。一起期待这项研究会把AI的未来带向哪个方向吧!

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

457

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

549

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

337

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

83

2025.09.10

resource是什么文件
resource是什么文件

Resource文件是一种特殊类型的文件,它通常用于存储应用程序或操作系统中的各种资源信息。它们在应用程序开发中起着关键作用,并在跨平台开发和国际化方面提供支持。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

183

2023.12.20

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6659

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

845

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1092

2023.12.21

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

69

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 1.0万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号