0

0

AMD与约翰霍普金斯大学联手:AI实验室copilot自动化科研,成本节约84%!

花韻仙語

花韻仙語

发布时间:2025-01-14 14:41:46

|

549人浏览过

|

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

编辑 | 2049

科学研究,尤其是机器学习领域的研究,往往需要大量的时间和资源投入,从最初的构思到最终的结果产出,每一步都充满了挑战。

近年来,大型语言模型(Large Language Models,LLMs)在自然语言处理和代码生成方面取得了显著进展,这为自动化科学研究提供了新的可能性。然而,现有的自动化研究工具通常只能处理单个环节,如文献综述或实验设计,无法实现全流程的自动化。

针对这一问题,来自 AMD 和约翰霍普金斯大学的研究团队提出了一种名为 Agent Laboratory 的创新框架。该框架利用 LLM 作为研究助手,能够从文献综述到实验设计和报告撰写全流程自动化,显著加速科学研究过程。

该框架不仅支持全自动模式,还创新性地提供了 co-pilot 协作模式,允许研究人员在关键节点提供反馈和指导,实现人机协同研究。

该研究以「Agent Laboratory: Using LLM Agents as Research Assistants」为题,于 2025 年 1 月 8 日发布在 arXiv 预印本平台。

图片

研究背景

现代 AI 研究正面临着效率与创新的双重挑战。研究人员往往需要在有限的时间和资源约束下,权衡和筛选最具潜力的研究方向。

现有的自动化研究工具存在明显局限:ResearchAgent 虽然能够生成研究想法和实验设计,但缺乏实际执行能力;The AI Scientist 虽然可以生成和执行代码,但其生成的研究论文质量有待提高。更重要的是,这些系统都采用完全自动化的方式,无法有效整合人类研究者的专业判断和创造性思维。

技术创新

Agent Laboratory 创新地提出了一个三阶段的研究辅助框架。首先是文献综述阶段,系统会根据研究者提供的主题自动检索和分析相关文献。其次是实验阶段,包括实验规划、数据准备和运行实验三个环节。最后是报告撰写阶段,系统能够基于实验结果生成规范的研究论文。

系统的核心是一个多智能体协作框架,包括多个专业化的语言模型代理:PhD 代理负责文献综述和研究规划,Postdoc 代理负责实验设计和结果解释,ML 工程师代理专注于代码实现,Professor 代理则负责论文评审和质量控制。

图片

图示:Agent Laboratory 整体框架。(来源:论文)

LongCat AI
LongCat AI

美团推出的AI对话问答工具

下载

系统的另一个核心创新是 mle-solver 模块,它通过五个关键组件实现代码的自动生成和优化:

  • Command Execution:通过 REPLACE 和 EDIT 操作生成和修改代码
  • Code Execution:执行代码并验证其正确性
  • Program Scoring:使用 LLM reward model 评估代码质量
  • Self Reflection:基于执行结果进行自我改进
  • Performance Stabilization:通过多样性采样确保代码质量稳定

在论文生成方面,系统采用了创新的 paper-solver 模块,集成了自动化审稿功能。该功能在 500 篇 ICLR 2022 论文的评估中,达到了与人类审稿人相当的准确率(65% 对比 66%),在 F1 分数上甚至超过了人类表现(0.57 对比 0.49)。

图片

图示:Agent Laboratory 工作流程。(来源:论文)

实验验证

研究团队通过多维度实验评估了 Agent Laboratory 的性能。在模型对比中,o1-preview 在有用性方面表现最佳,评分达到 4.4/5;在报告质量方面得分为 3.4/5,与 o1-mini(3.2/5)相近;o1-mini 在实验质量方面领先,得分为 3.2/5;而 gpt-4o 虽然在各项指标上表现较弱,但其运行成本显著降低,每篇论文仅需 2.33 美元,比现有自动化研究方法节省 84%。

特别值得注意的是,研究发现人类评估和自动化评估存在显著差异。自动评估给出的平均分数为 6.1/10,而人类评估仅为 3.8/10,这一发现强调了在评估系统性能时需要更多地依靠人类专家判断。在 MLE-Bench 部分挑战任务中,系统展现了优异的实践能力,获得了 4 枚奖牌(2 金 1 银 1 铜)。

图片

图示:实验结果。(来源:论文)

结语

Agent Laboratory 的创新意义在于重新定义了 AI 辅助研究的范式。通过灵活的自动化程度和人机协作模式,系统既能提供高效的研究支持,又能保持人类研究者的创造性主导地位。

虽然当前系统在自动评估准确性和论文质量方面仍有改进空间,但其显著的成本优势和实用性已经证明了其在加速科学研究方面的潜力。随着系统的进一步完善,它有望成为推动科学发现加速的重要工具。

论文链接:https://arxiv.org/abs/2501.04227

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1998

2024.08.16

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

31

2025.12.13

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

19

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

61

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

87

2026.01.19

java输出数组相关教程
java输出数组相关教程

本专题整合了java输出数组相关教程,阅读专题下面的文章了解更多详细内容。

39

2026.01.19

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

10

2026.01.19

xml格式相关教程
xml格式相关教程

本专题整合了xml格式相关教程汇总,阅读专题下面的文章了解更多详细内容。

13

2026.01.19

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

19

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 2.8万人学习

Django 教程
Django 教程

共28课时 | 3.3万人学习

MySQL 教程
MySQL 教程

共48课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号