0

0

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

碧海醫心

碧海醫心

发布时间:2024-10-28 17:30:01

|

958人浏览过

|

来源于机器之心

转载

不仅有主持人,还能得到不同AI专家的解答。

今年 4 月,斯坦福大学推出了一款利用大语言模型(llm)辅助编写类维基百科文章的神器。它就是开源的 storm,可以在三分钟左右将你输入的主题转换为长篇文章或者研究论文,并能够以 pdf 格式直接下载。

具体来讲,STORM 在 LLM 的协助下,通过检索、多角度提问和模拟专家对话等方式,在整理收集到的信息基础上生成写作大纲,并最终形成一份详细、深入和准确的内容报告。STORM 尤其擅长需要大量研究和引用的写作任务。更难得的是,用户可以直接在 STORM 的网站免费体验。

此后,STORM 不断推出新的功能和服务,在 GitHub 上的 Star 量已经超过了 12k。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

GitHub 地址:https://github.com/stanford-oval/storm

就在最近,该团队又推出全新功能 ——Co-STORM。与 STORM 的区别在于,它引入了协作对话机制,并采用轮次管理策略,实现流畅的协作式 AI 学术研究。功能包括如下:

Co-STORM LLM 专家:这种类型的智能体会根据外部知识来源生成答案并能根据对话历史提出后续问题。

主持人(Moderator):该智能体会根据检索器发现但未在前几轮直接使用的信息生成发人深省的问题。当然,问题生成也可以基于事实。

人类用户:人类用户将主动观察对话以更深入地了解主题,或者通过注入对话来引导讨论焦点,积极参与对话。

Co-STORM 的界面是下面这样的。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

体验地址:https://storm.genie.stanford.edu/

我们让 Co-STORM 就战争与和平(war and peace)主题来生成一篇文章,大约需要三分钟。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

在生成文章之后,我们可以看到,主持人提出问题,并得到基本信息提供者、文学教授、纪录片导演等不同 AI 智能体的回复,然后开启新一轮次的提问。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

此外,Co-STORM 的相关论文已被 EMNLP 2024 主会议收录。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

论文地址:https://www.arxiv.org/pdf/2408.15232

运行原理概览

下图为 Co-STORM 框架。整体而言,Co-STORM 模拟用户、观点引导专家和主持人之间的协作对话。

Tago AI
Tago AI

AI生成带货视频,专为电商卖货而生

下载

运行原理如下所示:首先维护动态更新的思维导图(3.2),从而帮助用户跟踪和参与对话(3.3)。 

在 3.4,提示模拟专家根据对话历史来确定对话意图,并生成基于互联网的问题或答案。

在 3.5,提示模拟主持人利用未使用的信息和思维导图生成新问题,从而自动引导对话。

最后,思维导图可用来生成完整的引用报告以作为总结。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

评估结果

自动评估可以实现可扩展测试,并允许对用户行为进行一致的模拟。

研究者将 Co-STORM 与以下基线进行比较:(1)RAG Chatbot,该基线从搜索引擎检索信息并通过一问一答范式与用户交互;(2)STORM + QA,该基线使用 STORM 框架为给定主题生成报告以提供基本信息。

下表 3 展示了报告质量和对话中问答轮次质量的评估结果。问答轮次和最终报告是人类与 Co-STORM 交互时学习的主要来源。STORM + QA 在研究给定主题时考虑了多种观点,与 RAG Chatbot 相比,确实提高了报告质量所有四个评分维度的表现。

同样,Co-STORM 的表现优于 RAG Chatbot,特别是在深度和新颖性方面,它通过模拟具有多个智能体角色的协作对话,类似于圆桌讨论。就对话质量而言,Co-STORM 中的问答轮次在一致性和参与度方面明显优于两个基线。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

Co-STORM 的一个关键特性是 LM 智能体可以代表用户提问。如下图 3 所示,在检查提问轮次时,Co-STORM 多智能体设计的优势变得更加明显,只需要一位专家和一位主持人就可以极大地获益。

重要的是,CoSTORM 中的主持人角色会根据有关主题的未使用信息提出问题。这样的角色代表拥有更多已知未知(known unknowns)的人,有效地引导对话,帮助用户在未知未知(unknown unknowns)空间中发现更多信息。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

下表 4 为人工评分结果,图 4 为成对比较结果。可以得出结论,CoSTORM 可以帮助用户找到与其目标相关的更广泛、更深层次的信息。

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

更多技术细节和评估结果请参考原论文。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4215

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2910

2024.08.16

什么是搜索引擎
什么是搜索引擎

搜索引擎是一种互联网工具,用于帮助用户在网上查找信息。搜索引擎的目标是提供最准确、最有价值的搜索结果,使用户能够快速找到所需的信息。本专题为大家提供搜索引擎相关的各种文章、以及下载和课程。

490

2023.08.02

有哪些目录搜索引擎
有哪些目录搜索引擎

目录搜索引擎有Google、Bing、Yahoo、Baidu、DuckDuckGo等。想了解更多目录搜索引擎的相关内容,可以阅读本专题下面的文章。

6474

2023.11.06

搜索引擎营销的主要模式
搜索引擎营销的主要模式

搜索引擎营销的主要模式包括:1. 竞价排名(ppc);2. 搜索引擎优化(seo);3. 本地搜索营销;4. 购物广告;5. 视频广告;6. 展示广告;7. 社交媒体营销;8. 移动广告。想了解更多搜索引擎营销的相关内容,可以阅读本专题下面的文章。

473

2024.05.20

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

69

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

37

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

82

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

97

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1万人学习

进程与SOCKET
进程与SOCKET

共6课时 | 0.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号