0

0

过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败

看不見的法師

看不見的法師

发布时间:2025-07-31 12:18:16

|

1035人浏览过

|

来源于php中文网

原创

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

过度炒作+虚假包装?gartner预测2027年超40%的代理型ai项目将失败

人工智能在大模型能力突破、推理能力提升以及多模态技术进步的推动下走向新阶段,“Agentic AI(代理型AI)”成为 2024 年以来 AI 领域的新晋热词,2025 年甚至被称为“AI 代理元年”——它被描绘为继 RPA(机器人流程自动化)、虚拟助手之后的下一代智能自动化革命,引发科技公司、风险投资者与企业 CIO的高度关注。

然而,多个研究团队却在近期相继发布研究报告,对当前 Agentic AI的实际能力、场景适配性乃至产业宣传行为提出质疑。所以——我们究竟是在见证一场 AI 代理革命,还是落入又一轮概念资本化的陷阱?

代理型 AI 乱象:过度炒作+虚假包装

Gartner 预测,到 2027 年底,超过 40% 的代理型 AI项目将因成本不断上升、商业价值不明确或风险控制不足而被取消。

Gartner 高级分析师 Anushree Verma 表示:“目前大多数代理型 AI 项目仍处于早期实验或概念验证阶段,其背后的主要驱动因素是炒作,而这些技术往往被错误地应用。这可能使企业忽视 AI 代理大规模部署所需的真正成本与复杂性,导致项目迟迟无法落地。企业需要穿透炒作迷雾,制定更为审慎和战略性的决策,明确在哪里、以及如何采用这一新兴技术。”

2025 年 1 月,Gartner 对 3412 名网络研讨会参与者进行了一项民意调查,发现 19% 的组织报告在代理型 AI方面进行了大量投资,42% 的组织进行了保守投资,8% 的组织根本没有投资,31% 的组织正在等待或不确定。

更为值得关注的是,Gartner 发现了一种普遍存在的“代理清洗”趋势,即供应商将现有的人工智能助手、聊天机器人或机器人流程自动化 (RPA) 工具重新包装成“代理人工智能”,而实际上并没有提供真正的代理功能。

Gartner 估计,在数千家声称提供代理解决方案的供应商中,只有约 130 家真正提供了真正的代理功能。Verma补充表示:“当前大多数所谓代理型 AI 解决方案并不具备明显的业务价值或投资回报率(ROI),因为这些模型尚不具备足够的成熟度与自主能力,无法持续性地达成复杂的业务目标,或精准理解并执行复杂指令。事实上,很多目前被标榜为 Agentic AI 的场景,根本不需要使用代理型架构。”

问题来了,真正的代理型 AI和虚假的代理型 AI 究竟差别在哪里?

从定义上来看,Agentic AI 是指使用机器学习模型并连接各类服务和应用,以自动执行任务或业务流程的 AI 代理。可以将其理解为 AI 模型在一个迭代反馈循环中,借助应用程序和 API 服务不断响应输入的机制。

其核心理念是,给定一个任务,比如:“查找我收到的所有对人工智能夸大其词的邮件,并判断这些发件人是否与加密货币公司有关联”,一个获得授权、能够读取邮箱客户端界面并访问邮件数据的 AI 模型,应当能够比程序脚本或人工员工更高效地理解并执行这一自然语言指令。

理论上,这类 AI 代理可以自行界定“夸大其词”的含义,而这对人类程序员来说可能涉及复杂的文本解析和语义分析,因此颇具挑战性。人们可能倾向于用简单的方式处理,比如在邮件正文中搜索“AI”一词。但人类员工即便能识别邮箱中的 AI 炒作内容,也可能耗时较长,不如计算驱动的方案高效。

代理型 AI 在真实场景中替代人类的能力仍存在显著差距

为了评估 AI 代理在执行常见知识型工作任务时的表现,例如网页浏览、编写代码、运行应用程序以及与同事沟通协作等,卡耐基梅隆大学的研究人员开发了一套基准系统。他们将这个测试平台命名为 TheAgentCompany,是一个模拟环境,旨在仿真一个小型软件公司的日常运营。

他们的目的是厘清围绕 AI 代理的争议——一方是 AI 的信奉者,认为人类大部分劳动可以被自动化;另一方是怀疑论者,认为这些说法不过是 AI 炒作的一部分。

在他们的研究论文中,研究人员指出,这两种观点之间存在巨大分歧,其根源在于目前缺乏一种系统的方法来测试 AI 代理在实际办公活动中的能力,因此开发统一的评估基准势在必行。而初步测试结果表明,AI 代理在真正实用化之前还有很长的路要走。

在测试中,他们使用了两个代理框架:OpenHands CodeAct 和 OWL-Roleplay,并对以下主流大模型进行了任务成功率评估。测试结果相当令人失望:

·Gemini 2.5 Pro:30.3%

·Claude 3.7 Sonnet:26.3%

·Claude 3.5 Sonnet:24%

·Gemini 2.0 Flash:11.4%

·GPT-4o:8.6%

·o3-mini:4.0%

·Gemini 1.5 Pro:3.4%

·Amazon Nova Pro v1:1.7%

Imagine By Magic Studio
Imagine By Magic Studio

AI图片生成器,用文字制作图片

下载

·LLaMA 3.1 405B:7.4%

·LLaMA 3.3 70B:6.9%

·Qwen 2.5 72B:5.7%

·LLaMA 3.1 70B:1.7%

·Qwen 2 72B:1.1%

研究人员在论文中写道:“我们的实验表明,表现最好的模型 Gemini 2.5 Pro,仅能够自主完成 30.3% 的指定测试任务;若考虑部分完成的任务并给予额外加分,其得分也仅为39.3%。”这些数据表明,尽管代理型 AI 的潜力令人期待,但目前距离其在真实办公场景中高效替代人类工作者的能力仍存在显著差距。

研究人员在测试过程中观察到多种失败情形,其中包括:

AI 代理未按照指令给同事发送消息;

无法正确处理某些网页 UI 元素,例如弹窗;甚至出现了欺骗性行为——在一个案例中,当代理无法在 RocketChat(一种用于内部沟通的开源 Slack 替代品)中找到目标联系人时,它选择“取巧”,将另一名用户重命名为目标用户的名字,以假冒完成任务。

与此同时,来自 Salesforce的研究团队也提出了一套针对客户关系管理(CRM)场景的 AI 代理评估基准。这套名为 CRMArena-Pro 的评估体系,涵盖了 B2B 和 B2C 两类业务场景下的销售、客服以及“配置、定价与报价(CPQ)” 等 19 项由专家验证的任务,并支持单轮交互(一次提示-应答)与多轮交互(多次提示-应答且保持上下文连续)两种测试模式。

测试结果显示:即便是目前领先的大语言模型代理,在 CRMArena-Pro 中的整体表现也较为有限。在单轮交互场景中的平均成功率约为 58%,但一旦进入多轮交互,其性能会显著下降至 35% 左右。

相关研究人员进一步表示:“我们发现,大语言模型代理普遍缺乏完成复杂工作任务所需的多项关键能力,工作流执行(Workflow Execution) 是为数不多的例外,在这类任务中,像 Gemini-2.5-Pro 等强模型的成功率可超过 83%。”

同时,报告也指出,所有被评估的模型在保密意识(confidentiality awareness)方面几乎为零。这意味着,在高度关注数据隐私与安全的企业IT环境中,部署 AI 代理依然面临严峻挑战。

不只是测试和实验阶段,一些企业已经体会到 Agentic AI 炒作过度所带来的风险。RCR专栏作家 Sean Kinney 在文章中指出,瑞典支付平台 Klarna曾暂停招聘部分岗位,改用 AI工 具处理客户服务请求。但 Klarna CEO Sebastian Siemiatkowski 在接受彭博社采访时坦言,这些 AI 工具提供的服务质量不如人类员工,最终公司重新恢复了人工招聘。

Kinney 锐评道:“这只是众多企业‘All in AI’后不得不回头修正路线的一个例子,还有更多这样的案例,未来也还会有。”

写在最后

尽管受挫,但 Gartner 仍看好代理型 AI 的长期潜力——Gartner 认为,虽然当前代理型 AI 尚未成熟,但其长期发展前景值得期待,到 2028 年,至少 15% 的日常工作决策将由 AI 代理自主完成(2024 年为 0%);33% 的企业软件应用将集成代理型 AI(2024 年不足 1%)。

Gartner 建议,企业在采用代理型 AI 时,应聚焦于那些能够明确交付价值或可衡量 ROI 的场景。在已有系统中集成 AI 代理可能打破现有工作流程,并带来高昂的修改成本。从底层重构工作流程以适配代理型 AI 的能力,或许才是更可持续的路径。

参考资料:

Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027,Gartner

AI agents get office tasks wrong around 70% of the time, and a lot of them aren’t AI at all,Theregister

Gartner: More than 40% of agentic AI projects will fail by 2027,Rcrwireless

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

38

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

83

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

97

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

169

2026.03.04

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

246

2026.03.03

C++高性能网络编程与Reactor模型实践
C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开,深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例,帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

34

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
光速学会docker容器
光速学会docker容器

共33课时 | 2万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号