0

0

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

PHPz

PHPz

发布时间:2023-10-06 14:37:06

|

1639人浏览过

|

来源于51CTO.COM

转载

gpt-4有能力做论文评审吗?

来自斯坦福等大学的研究人员还真测试了一把。

他们丢给GPT-4数千篇来自Nature、ICLR等顶会的文章,让它生成评审意见(包括修改建议啥的),然后与人类给的意见进行比较。

经过调查,我们发现:

GPT-4提出的超50%观点与至少一名人类评审员一致;

并且有超过82.4%的作者发现GPT-4提供的意见非常有帮助

这项研究能给我们带来哪些启示呢?

结论是:

高质量的人类反馈仍然不可替代;但GPT-4可以帮助作者在正式同行评审前改进初稿。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

具体来看。

实测GPT-4论文评审水平

为了证明GPT-4的潜力,研究人员首先用GPT-4创建了一个自动pipeline

它能够分析整篇PDF格式的论文,提取标题、摘要、图表、表格标题等内容,以建立提示语

然后让GPT-4提供评审意见。

其中,意见和各顶会的标准一样,共包含四个部分:

研究的重要性和新颖性,以及可能被接受或拒绝的原因和改进建议

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

具体实验从两方面展开。

首先是量化实验:

阅读现有论文,生成反馈,并与真实人类观点进行系统比较,以找出重叠部分

在此,团队从Nature正刊和各大子刊挑选了3096篇文章,从ICLR机器学习会议(包含去年和今年)挑选了1709篇,共计4805篇。

其中,Nature论文共涉及8745条人类评审意见;ICLR会议涉及6506条。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

GPT-4给出意见之后,pipeline就在match环节分别提取人类和GPT-4的论点,然后进行语义文本匹配,找到重叠的论点,以此来衡量GPT-4意见的有效性和可靠度。

结果是:

1、GPT-4意见与人类评审员真实意见显著重叠

整体来看,在Nature论文中,GPT-4有57.55%的意见与至少一位人类评审员一致;在ICLR中,这个数字则高达77.18%。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

再进一步仔细比较GPT-4与每一位评审员的意见之后,团队又发现:

GPT-4在Nature论文上和人类评审员的重叠率下降为30.85%,在ICLR上降为39.23%。

然而,这与两位人类审稿人之间的重叠率相当

在Nature论文中,人类的平均重叠率为28.58%;而在ICLR上则为35.25%

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

此外,他们还通过分析论文的等级水平(oral、spotlight、或是直接被拒绝的)发现:

对于水平较弱的论文而言,GPT-4和人类审稿人之间的重叠率有望提高。从目前的30%多,可以增加到接近50%

这表明,GPT-4具有很高的辨别能力,可以辨别出水平较差的论文

作者也因此表示,那些需要更实质性修改才能被接收的论文有福了,大伙儿可以在正式提交前多试试GPT-4给出的修改意见。

知料万语
知料万语

知料万语—AI论文写作,AI论文助手

下载

2、GPT-4能够提供非通用的反馈

所谓非通用反馈,即GPT-4不会给出一个适用于多篇论文的通用评审意见。

在此,作者们衡量了一个“成对重叠率”的指标,结果发现它在Nature和ICLR上都显著降低到了0.43%和3.91%。

这表明GPT-4具有特定目标

3、能够与人类观点在重大、普遍问题上达成一致

一般而言,那些最早出现并且被多个评审员提及的意见,往往代表着重要且普遍存在的问题

在这里,团队还发现LLM更有可能识别出多个评审员一致认可的常见问题或缺陷

GPT-4在整体上表现尚可

4、GPT-4给的意见更强调一些与人类不同的方面

研究发现,GPT-4评论研究本身含义的频率是人类的7.27倍,评论研究新颖性的可能性是人类的10.69倍。

以及GPT-4和人类都经常建议进行额外的实验,但人类更关注于消融实验,GPT-4更建议在更多数据集上试试。

作者表示,这些发现表明,GPT-4和人类评审员在各方面的的重视程度各不相同,两者合作可能带来潜在优势。

定量实验之外是用户研究

本次研究共有308名来自不同机构的AI和计算生物学领域的研究员参与,他们将各自的论文上传给GPT-4进行评审

研究团队收集了他们对GPT-4评审意见的真实反馈。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

总体而言,超过一半(57.4%)的参与者认为GPT-4生成的反馈很有帮助,包括给到一些人类想不到的点。

以及82.4%的调查者认为它比至少一些人类评审员的反馈更有益。

此外,还有超过一半的人(50.5%)表示,愿意进一步使用GPT-4等大模型来改进论文。

其中一人表示,只需要5分钟GPT-4就给出了结果,这个反馈速度真的非常快,对研究人员改善论文很有帮助。

当然,作者强调:

GPT-4的能力也有一些限制

最明显的是它更关注于“整体布局”,缺少特定技术领域(例如模型架构)的深度建议。

因此,正如作者最后的结论所述:

在正式评审之前,人类评审员的高质量反馈是非常重要的,但我们可以先试水一下,以弥补实验和构建等方面的细节可能被遗漏的情况

当然,他们也提醒:

正式评审中,审稿人应该还是独立参与,不依赖任何LLM。

一作都是华人

本研究一作共三位,都是华人,都来自斯坦福大学计算机科学学院。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

他们分别是:

  • 梁伟欣,该校博士生,也是斯坦福AI实验室(SAIL)成员。他硕士毕业于斯坦福电气工程专业,本科毕业于浙江大学计算机科学。
  • Yuhui Zhang,同博士生在读,研究方向为多模态AI系统。清华本科毕业,斯坦福硕士毕业。
  • 曹瀚成,该校五年级博士在读,辅修管理科学与工程,同时加入了斯坦福大学NLP和HCI小组。此前毕业于清华大学电子工程系本科。

论文链接:https://arxiv.org/abs/2310.01783

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2033

2024.08.16

C++ 高级模板编程与元编程
C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术,涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例,帮助开发者掌握 如何利用 C++ 模板机制编写高效、可扩展的通用代码,并提升代码的灵活性与性能。

10

2026.01.23

php远程文件教程合集
php远程文件教程合集

本专题整合了php远程文件相关教程,阅读专题下面的文章了解更多详细内容。

28

2026.01.22

PHP后端开发相关内容汇总
PHP后端开发相关内容汇总

本专题整合了PHP后端开发相关内容,阅读专题下面的文章了解更多详细内容。

21

2026.01.22

php会话教程合集
php会话教程合集

本专题整合了php会话教程相关合集,阅读专题下面的文章了解更多详细内容。

20

2026.01.22

宝塔PHP8.4相关教程汇总
宝塔PHP8.4相关教程汇总

本专题整合了宝塔PHP8.4相关教程,阅读专题下面的文章了解更多详细内容。

11

2026.01.22

PHP特殊符号教程合集
PHP特殊符号教程合集

本专题整合了PHP特殊符号相关处理方法,阅读专题下面的文章了解更多详细内容。

11

2026.01.22

PHP探针相关教程合集
PHP探针相关教程合集

本专题整合了PHP探针相关教程,阅读专题下面的文章了解更多详细内容。

8

2026.01.22

菜鸟裹裹入口以及教程汇总
菜鸟裹裹入口以及教程汇总

本专题整合了菜鸟裹裹入口地址及教程分享,阅读专题下面的文章了解更多详细内容。

52

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号