0

0

过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败

看不見的法師

看不見的法師

发布时间:2025-07-31 12:18:16

|

1035人浏览过

|

来源于php中文网

原创

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

过度炒作+虚假包装?gartner预测2027年超40%的代理型ai项目将失败

人工智能在大模型能力突破、推理能力提升以及多模态技术进步的推动下走向新阶段,“Agentic AI(代理型AI)”成为 2024 年以来 AI 领域的新晋热词,2025 年甚至被称为“AI 代理元年”——它被描绘为继 RPA(机器人流程自动化)、虚拟助手之后的下一代智能自动化革命,引发科技公司、风险投资者与企业 CIO的高度关注。

然而,多个研究团队却在近期相继发布研究报告,对当前 Agentic AI的实际能力、场景适配性乃至产业宣传行为提出质疑。所以——我们究竟是在见证一场 AI 代理革命,还是落入又一轮概念资本化的陷阱?

代理型 AI 乱象:过度炒作+虚假包装

Gartner 预测,到 2027 年底,超过 40% 的代理型 AI项目将因成本不断上升、商业价值不明确或风险控制不足而被取消。

Gartner 高级分析师 Anushree Verma 表示:“目前大多数代理型 AI 项目仍处于早期实验或概念验证阶段,其背后的主要驱动因素是炒作,而这些技术往往被错误地应用。这可能使企业忽视 AI 代理大规模部署所需的真正成本与复杂性,导致项目迟迟无法落地。企业需要穿透炒作迷雾,制定更为审慎和战略性的决策,明确在哪里、以及如何采用这一新兴技术。”

2025 年 1 月,Gartner 对 3412 名网络研讨会参与者进行了一项民意调查,发现 19% 的组织报告在代理型 AI方面进行了大量投资,42% 的组织进行了保守投资,8% 的组织根本没有投资,31% 的组织正在等待或不确定。

更为值得关注的是,Gartner 发现了一种普遍存在的“代理清洗”趋势,即供应商将现有的人工智能助手、聊天机器人或机器人流程自动化 (RPA) 工具重新包装成“代理人工智能”,而实际上并没有提供真正的代理功能。

Gartner 估计,在数千家声称提供代理解决方案的供应商中,只有约 130 家真正提供了真正的代理功能。Verma补充表示:“当前大多数所谓代理型 AI 解决方案并不具备明显的业务价值或投资回报率(ROI),因为这些模型尚不具备足够的成熟度与自主能力,无法持续性地达成复杂的业务目标,或精准理解并执行复杂指令。事实上,很多目前被标榜为 Agentic AI 的场景,根本不需要使用代理型架构。”

问题来了,真正的代理型 AI和虚假的代理型 AI 究竟差别在哪里?

从定义上来看,Agentic AI 是指使用机器学习模型并连接各类服务和应用,以自动执行任务或业务流程的 AI 代理。可以将其理解为 AI 模型在一个迭代反馈循环中,借助应用程序和 API 服务不断响应输入的机制。

其核心理念是,给定一个任务,比如:“查找我收到的所有对人工智能夸大其词的邮件,并判断这些发件人是否与加密货币公司有关联”,一个获得授权、能够读取邮箱客户端界面并访问邮件数据的 AI 模型,应当能够比程序脚本或人工员工更高效地理解并执行这一自然语言指令。

理论上,这类 AI 代理可以自行界定“夸大其词”的含义,而这对人类程序员来说可能涉及复杂的文本解析和语义分析,因此颇具挑战性。人们可能倾向于用简单的方式处理,比如在邮件正文中搜索“AI”一词。但人类员工即便能识别邮箱中的 AI 炒作内容,也可能耗时较长,不如计算驱动的方案高效。

代理型 AI 在真实场景中替代人类的能力仍存在显著差距

为了评估 AI 代理在执行常见知识型工作任务时的表现,例如网页浏览、编写代码、运行应用程序以及与同事沟通协作等,卡耐基梅隆大学的研究人员开发了一套基准系统。他们将这个测试平台命名为 TheAgentCompany,是一个模拟环境,旨在仿真一个小型软件公司的日常运营。

他们的目的是厘清围绕 AI 代理的争议——一方是 AI 的信奉者,认为人类大部分劳动可以被自动化;另一方是怀疑论者,认为这些说法不过是 AI 炒作的一部分。

在他们的研究论文中,研究人员指出,这两种观点之间存在巨大分歧,其根源在于目前缺乏一种系统的方法来测试 AI 代理在实际办公活动中的能力,因此开发统一的评估基准势在必行。而初步测试结果表明,AI 代理在真正实用化之前还有很长的路要走。

在测试中,他们使用了两个代理框架:OpenHands CodeAct 和 OWL-Roleplay,并对以下主流大模型进行了任务成功率评估。测试结果相当令人失望:

·Gemini 2.5 Pro:30.3%

·Claude 3.7 Sonnet:26.3%

·Claude 3.5 Sonnet:24%

·Gemini 2.0 Flash:11.4%

·GPT-4o:8.6%

·o3-mini:4.0%

·Gemini 1.5 Pro:3.4%

·Amazon Nova Pro v1:1.7%

Background Eraser
Background Eraser

AI自动删除图片背景

下载

·LLaMA 3.1 405B:7.4%

·LLaMA 3.3 70B:6.9%

·Qwen 2.5 72B:5.7%

·LLaMA 3.1 70B:1.7%

·Qwen 2 72B:1.1%

研究人员在论文中写道:“我们的实验表明,表现最好的模型 Gemini 2.5 Pro,仅能够自主完成 30.3% 的指定测试任务;若考虑部分完成的任务并给予额外加分,其得分也仅为39.3%。”这些数据表明,尽管代理型 AI 的潜力令人期待,但目前距离其在真实办公场景中高效替代人类工作者的能力仍存在显著差距。

研究人员在测试过程中观察到多种失败情形,其中包括:

AI 代理未按照指令给同事发送消息;

无法正确处理某些网页 UI 元素,例如弹窗;甚至出现了欺骗性行为——在一个案例中,当代理无法在 RocketChat(一种用于内部沟通的开源 Slack 替代品)中找到目标联系人时,它选择“取巧”,将另一名用户重命名为目标用户的名字,以假冒完成任务。

与此同时,来自 Salesforce的研究团队也提出了一套针对客户关系管理(CRM)场景的 AI 代理评估基准。这套名为 CRMArena-Pro 的评估体系,涵盖了 B2B 和 B2C 两类业务场景下的销售、客服以及“配置、定价与报价(CPQ)” 等 19 项由专家验证的任务,并支持单轮交互(一次提示-应答)与多轮交互(多次提示-应答且保持上下文连续)两种测试模式。

测试结果显示:即便是目前领先的大语言模型代理,在 CRMArena-Pro 中的整体表现也较为有限。在单轮交互场景中的平均成功率约为 58%,但一旦进入多轮交互,其性能会显著下降至 35% 左右。

相关研究人员进一步表示:“我们发现,大语言模型代理普遍缺乏完成复杂工作任务所需的多项关键能力,工作流执行(Workflow Execution) 是为数不多的例外,在这类任务中,像 Gemini-2.5-Pro 等强模型的成功率可超过 83%。”

同时,报告也指出,所有被评估的模型在保密意识(confidentiality awareness)方面几乎为零。这意味着,在高度关注数据隐私与安全的企业IT环境中,部署 AI 代理依然面临严峻挑战。

不只是测试和实验阶段,一些企业已经体会到 Agentic AI 炒作过度所带来的风险。RCR专栏作家 Sean Kinney 在文章中指出,瑞典支付平台 Klarna曾暂停招聘部分岗位,改用 AI工 具处理客户服务请求。但 Klarna CEO Sebastian Siemiatkowski 在接受彭博社采访时坦言,这些 AI 工具提供的服务质量不如人类员工,最终公司重新恢复了人工招聘。

Kinney 锐评道:“这只是众多企业‘All in AI’后不得不回头修正路线的一个例子,还有更多这样的案例,未来也还会有。”

写在最后

尽管受挫,但 Gartner 仍看好代理型 AI 的长期潜力——Gartner 认为,虽然当前代理型 AI 尚未成熟,但其长期发展前景值得期待,到 2028 年,至少 15% 的日常工作决策将由 AI 代理自主完成(2024 年为 0%);33% 的企业软件应用将集成代理型 AI(2024 年不足 1%)。

Gartner 建议,企业在采用代理型 AI 时,应聚焦于那些能够明确交付价值或可衡量 ROI 的场景。在已有系统中集成 AI 代理可能打破现有工作流程,并带来高昂的修改成本。从底层重构工作流程以适配代理型 AI 的能力,或许才是更可持续的路径。

参考资料:

Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027,Gartner

AI agents get office tasks wrong around 70% of the time, and a lot of them aren’t AI at all,Theregister

Gartner: More than 40% of agentic AI projects will fail by 2027,Rcrwireless

相关专题

更多
人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

431

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

307

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

632

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

34

2025.10.21

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

32

2025.12.13

Golang 性能分析与pprof调优实战
Golang 性能分析与pprof调优实战

本专题系统讲解 Golang 应用的性能分析与调优方法,重点覆盖 pprof 的使用方式,包括 CPU、内存、阻塞与 goroutine 分析,火焰图解读,常见性能瓶颈定位思路,以及在真实项目中进行针对性优化的实践技巧。通过案例讲解,帮助开发者掌握 用数据驱动的方式持续提升 Go 程序性能与稳定性。

8

2026.01.22

html编辑相关教程合集
html编辑相关教程合集

本专题整合了html编辑相关教程合集,阅读专题下面的文章了解更多详细内容。

51

2026.01.21

三角洲入口地址合集
三角洲入口地址合集

本专题整合了三角洲入口地址合集,阅读专题下面的文章了解更多详细内容。

27

2026.01.21

AO3中文版入口地址大全
AO3中文版入口地址大全

本专题整合了AO3中文版入口地址大全,阅读专题下面的的文章了解更多详细内容。

354

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.2万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号