0

0

四款「ChatGPT搜索」全面对比!斯坦福华人博士纯手工标注:新必应流畅度最低,近一半句子都没引用

王林

王林

发布时间:2023-05-01 23:28:09

|

1023人浏览过

|

来源于51CTO.COM

转载

ChatGPT发布后不久,微软成功上车发布「新必应」,不仅股价大涨,甚至还大有取代谷歌,开启搜索引擎新时代的架势。

不过新必应真是大型语言模型的正确玩法吗?生成的答案真的对用户有用吗?句子里标的引文可信度有多少?

最近,斯坦福的研究人员从不同的来源收集了大量的用户查询,对当下四个大火的生成性搜索引擎,新必应(Bing Chat),NeevaAI,perplexity.ai和 YouChat进行了人工评估。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

四款「ChatGPT搜索」全面对比!斯坦福华人博士纯手工标注:新必应流畅度最低,近一半句子都没引用

论文链接:https://arxiv.org/pdf/2304.09848.pdf

实验结果发现,来自现有生成搜索引擎的回复流畅且信息量大,但经常包含没有证据的陈述和不准确的引用。

平均来说,只有51.5%的引用可以完全支撑生成的句子,只有74.5% 的引用可以作为相关句子的证据支持。

研究人员认为,对于那些可能成为信息搜寻用户主要工具的系统来说,这个结果实在是过低了,特别是考虑到有些句子只是貌似可信的话,生成式搜索引擎仍然需要进一步优化。

四款「ChatGPT搜索」全面对比!斯坦福华人博士纯手工标注:新必应流畅度最低,近一半句子都没引用

个人主页:https://cs.stanford.edu/~nfliu/

第一作者Nelson Liu是斯坦福大学自然语言处理组的四年级博士生,导师为Percy Liang,本科毕业于华盛顿大学,主要研究方向为构建实用的NLP系统,尤其是用于信息查找的应用程序。

别轻信生成式搜索引擎

2023年3月,微软报告说「大约三分之一的每日预览用户每天都在使用[Bing]聊天」,并且Bing聊天在其公开预览的第一个月提供了4500万次聊天,也就是说,把大型语言模型融合进搜索引擎是非常有市场的,极有可能改变互联网的搜索入口。

四款「ChatGPT搜索」全面对比!斯坦福华人博士纯手工标注:新必应流畅度最低,近一半句子都没引用

但目前来看,现有的基于大型语言模型技术的生成式搜索引擎仍然存在准确率不高的问题,但具体的准确率仍然没有得到全面评估,进而也无法了解到新型搜索引擎的局限之处。

可验证性(verifiability)是提升搜索引擎可信度的关键,即为生成答案中的每一句话都提供引文的外部链接来作为证据支撑,可以使用户更容易验证答案的准确程度。

研究人员通过收集不同类型、来源的问题,在四个商业生成式搜索引擎(Bing Chat, NeevaAI, perplexity.ai, YouChat)上进行人工评估。

四款「ChatGPT搜索」全面对比!斯坦福华人博士纯手工标注:新必应流畅度最低,近一半句子都没引用


Video Summarization
Video Summarization

一款可以自动将长视频制作成短片的桌面软件

下载

评估指标主要包括流畅性,即生成的文本是否连贯;有用性,即搜索引擎的回复对于用户来说是否有帮助,以及答案中的信息是否能够解决问题;引用召回,即生成的关于外部网站的句子中包含引用支持的比例;引用精度,即生成的引用支持其相关句子的比例。

流畅性(fluency)

同时展示用户查询、生成的回复以及声明「该回复是流畅且语义连贯的」,标注人员以五分制Likert量表对数据进行打分。

四款「ChatGPT搜索」全面对比!斯坦福华人博士纯手工标注:新必应流畅度最低,近一半句子都没引用

有用性(perceived utility)

与流畅性类似,标注人员需要评定他们对「该回复是对用户查询来说是有用且有信息量的 」这一说法的同意程度。

引用召回(citation recall)

引用召回率是指由其相关引文完全支持的、值得验证的句子的比例,所以该指标的计算需要确定回复中值得验证的句子,以及评估每个值得验证的句子能够被相关引文支持。

四款「ChatGPT搜索」全面对比!斯坦福华人博士纯手工标注:新必应流畅度最低,近一半句子都没引用

「识别值得验证的句子」过程中,研究人员认为关于外部世界的每一个生成的句子都是值得验证的,即使是那些可能看起来很明显、微不足道的常识,因为对于某些读者来说似乎是明显的「常识」,但其实可能并不正确。

搜索引擎系统的目标应该是为所有生成的关于外部世界的句子提供参考来源,使读者能够轻松地验证生成的回复中的任何叙述,不能为了简单而牺牲可验证性。

所以实际上标注人员对所有生成的句子都进行验证,除了那些以系统为第一人称的回复,如「作为一个语言模型,我没有能力做...」,或是对用户的提问,如「你想了解更多吗?」等。

评估「一个值得验证的陈述是否得到其相关引文的充分支持」可以基于归因已识别来源(AIS, attributable to identified sources)评估框架,标注人员进行二元标注,即如果一个普通的听众认可「基于引用的网页,可以得出...」,那引文即可完全支持该回复。

引用精确率

为了衡量引用的精确率,标注人员需要判断每个引用是否对其相关的句子提供了全部、部分或无关支持。

完全支持(full support):句子中的所有信息都得到了引文的支持。

部分支持(Partial support):句子中的一些信息得到了引文的支持,但其他部分可能存在缺失或矛盾。

无关支持(No support):如引用的网页完全不相关或相互矛盾。

对于有多个相关引文的句子,还会额外要求标注人员使用AIS评估框架判断所有相关引文网页作为一个整体是否为该句子提供了充分的支持(二元判断)。

实验结果

在流畅性和有用性评估中,可以看到各个搜索引擎都能够生成非常流畅且有用的回复。

四款「ChatGPT搜索」全面对比!斯坦福华人博士纯手工标注:新必应流畅度最低,近一半句子都没引用

四款「ChatGPT搜索」全面对比!斯坦福华人博士纯手工标注:新必应流畅度最低,近一半句子都没引用


在具体的搜索引擎评估中,可以看到看到Bing Chat的流畅性/有用性评分最低(4.40/4.34),其次是NeevaAI(4.43/4.48),perplexity.ai(4.51/4.56),以及YouChat(4.59/4.62)。

在不同类别的用户查询中,可以看到较短的提取性问题通常比长问题要更流畅,通常只回答事实性知识即可;一些有难度的问题通常需要对不同的表格或网页进行汇总,合成过程会降低整体的流畅性。

在引文评估中,可以看到现有的生成式搜索引擎往往不能全面或正确地引用网页,平均只有51.5%的生成句子得到了引文的完全支持(召回率),只有74.5%的引文完全支持其相关句子(精确度)。

四款「ChatGPT搜索」全面对比!斯坦福华人博士纯手工标注:新必应流畅度最低,近一半句子都没引用

四款「ChatGPT搜索」全面对比!斯坦福华人博士纯手工标注:新必应流畅度最低,近一半句子都没引用

这个数值来说对于已经拥有数百万用户的搜索引擎系统来说是不可接受的,特别是在生成回复往往信息量比较大的情况下。

并且不同的生成式搜索引擎之间的引文召回率和精确度有很大差异,其中perplexity.ai实现了最高的召回率(68.7),而NeevaAI(67.6)、Bing Chat(58.7)和YouChat(11.1)较低。

另一方面,Bing Chat实现了最高的精确度(89.5),其次是perplexity.ai(72.7)、NeevaAI(72.0)和YouChat(63.6)

在不同的用户查询中,有长答案的NaturalQuestions查询和非NaturalQuestions查询之间的引用召回率差距接近11%(分别为58.5和47.8);

同样,有短答案的NaturalQuestions查询和无短答案的NaturalQuestions查询之间的引用召回率差距接近10%(有短答案的查询为63.4,只有长答案的查询为53.6,而无长或短答案的查询为53.4)。

没有网页支持的问题中,引用率就会较低,例如对开放式的AllSouls论文问题进行评估时,生成式搜索引擎在引文召回率方面只有44.3

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

109

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

16

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

136

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

7

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

6

2026.01.26

2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】
2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务,并强调官方渠道唯一性与信息安全。

122

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表
个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例,应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元,专项扣除 1000 元,专项附加扣除 2000 元,当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元,对应税率为 3%,速算扣除数为 0,则当月应纳税额为 2000×3% = 60 元。

35

2026.01.26

oppo云服务官网登录入口 oppo云服务登录手机版
oppo云服务官网登录入口 oppo云服务登录手机版

oppo云服务https://cloud.oppo.com/可以在云端安全存储您的照片、视频、联系人、便签等重要数据。当您的手机数据意外丢失或者需要更换手机时,可以随时将这些存储在云端的数据快速恢复到手机中。

121

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号