讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI聊天问答 Agent智能体 AI文本写作 AI绘画作图 AI设计工具 AI视频创作 AI音频制作 AI办公学习 AI编程开发 AI提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

王林

发布时间：2023-05-19 11:55:05

|

1732人浏览过

|

来源于51CTO.COM

转载

免费语音克隆

免费语音克隆

这是一个提供免费语音克隆服务的平台，用户只需上传或录制一段 5 秒以上的清晰语音样本，平台即可生成与用户声音高度一致的 AI 语音克隆。

下载

chatgpt发布后，自然语言处理领域的生态彻底发生了变化，很多之前无法完成的问题都可以利用chatgpt解决。

不过也带来了一个问题：大模型的性能都太强了，光靠肉眼很难评估各个模型的差异。

比如用不同的基座模型和超参数训练了几版模型，从样例来看性能可能都差不多，无法完全量化两个模型之间的性能差距。

目前评估大语言模型主要有两个方案：

1、调用OpenAI的API接口评估。

ChatGPT可以用来评估两个模型输出的质量，不过ChatGPT一直在迭代升级，不同时间对同一个问题的回复可能会有所不同，评估结果存在无法复现的问题。

2、人工标注

如果在众包平台上请人工标注的话，经费不足的团队可能无力负担，也存在第三方公司泄露数据的情况。

为了解决诸如此类的「大模型评估问题」，来自北京大学、西湖大学、北卡罗来纳州立大学、卡内基梅隆大学、MSRA的研究人员合作开发了一个全新的语言模型评估框架PandaLM，致力于实现保护隐私、可靠、可复现及廉价的大模型评估方案。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

项目链接：https://github.com/WeOpenML/PandaLM

提供相同的上下文，PandaLM可以比较不同LLM的响应输出，并提供具体的理由。

为了证明该工具的可靠性和一致性，研究人员创建了一个由大约1000个样本组成的多样化的人类标注测试数据集，其中PandaLM-7B的准确率达到了ChatGPT的94%评估能力。

三行代码用上PandaLM

当两个不同的大模型对同一个指令和上下文产生不同响应时，PandaLM旨在比较这两个大模型的响应质量，并输出比较结果，比较理由以及可供参考的响应。

比较结果有三种：响应1更好，响应2更好，响应1与响应2质量相似。

比较多个大模型的性能时，只需使用PandaLM对其进行两两比较，再汇总两两比较的结果进行多个大模型的性能排名或画出模型偏序关系图，即可清晰直观地分析不同模型间的性能差异。

PandaLM只需要在「本地部署」，且「不需要人类参与」，因此PandaLM的评估是可以保护隐私且相当廉价的。

为了提供更好的可解释性，PandaLM亦可用自然语言对其选择进行解释，并额外生成一组参考响应。

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

在项目中，研究人员不仅支持使用Web UI使用PandaLM以便于进行案例分析，为了方便使用，还支持三行代码调用PandaLM对任意模型和数据生成的文本评估。

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

考虑到现有的许多模型、框架并不开源或难以在本地完成推理，PandaLM支持利用指定模型权重生成待评估文本，或直接传入包含待评估文本的.json文件。

用户只需传入一个包含模型名称/HuggingFace模型ID或.json文件路径的列表，即可利用PandaLM对用户定义的模型和输入数据进行评估。下面是一个极简的使用示例：

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

为了能让大家灵活的运用PandaLM进行自由评测，研究人员也将PandaLM的模型权重公布在了huggingface网站上，可以通过以下命令加载PandaLM-7B模型：

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

PandaLM的特点

可复现性

因为PandaLM的权重是公开的，即使语言模型的输出有随机性，当固定随机种子之后，PandaLM的评价结果仍可始终保持一致。

而基于在线API的模型的更新不透明，其输出在不同时间有可能很不一致，且旧版模型不再可访问，因此基于在线API的评测往往不具有可复现性。

自动化、保护隐私性和开销低

只需本地部署PandaLM模型，调用现成的命令即可开始评估各种大模型，不需像雇佣专家标注时要时刻与专家保持沟通，也不会存在数据泄露的问题，同时也不涉及任何API费用以及劳务费用，非常廉价。

评估水平

为了证明PandaLM的可靠性，研究人员雇佣了三个专家进行独立重复标注，创建了一个人工标注的测试集。

测试集包含50个不同的场景，每个场景中又包含若干任务。这个测试集是多样化、可靠且与人类对文本的偏好相一致的。测试集的每个样本由一个指令和上下文，以及两个由不同大模型生成的响应共同组成，并由人类来比较这两个响应的质量。

筛除了标注员之间有较大差异的样本，以确保每个标注者在最终测试集上的IAA（Inter Annotator Agreement）接近0.85。值得注意的是，PandaLM的训练集与创建的人工标注测试集无任何重叠。

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

这些被过滤的样本需要额外的知识或难以获取的信息来辅助判断，这使得人类也难以对它们进行准确标注。

经过筛选的测试集包含1000个样本，而原始未经过滤的测试集包含2500个样本。测试集的分布为{0：105，1：422，2：472}，其中0表示两个响应质量相似，1表示响应1更好，2表示响应2更好。以人类测试集为基准，PandaLM与gpt-3.5-turbo的性能对比如下：

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

可以看到，PandaLM-7B在准确度上已经达到了gpt-3.5-turbo 94%的水平，而在精确率，召回率，F1分数上，PandaLM-7B已于gpt-3.5-turbo相差无几。

因此，相比于gpt-3.5-turbo而言，可以认为PandaLM-7B已经具备了相当的大模型评估能力。

除了在测试集上的准确度，精确率，召回率，F1分数之外，还提供了5个大小相近且开源的大模型之间比较的结果。

首先使用了相同的训练数据对这个5个模型进行指令微调，接着用人类，gpt-3.5-turbo，PandaLM对这5个模型分别进行两两比较。

下表中第一行第一个元组（72，28，11）表示有72个LLaMA-7B的响应比Bloom-7B的好，有28个LLaMA-7B的响应比Bloom-7B的差，两个模型有11个响应质量相似。

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

因此在这个例子中，人类认为LLaMA-7B优于Bloom-7B。下面三张表的结果说明人类，gpt-3.5-turbo与PandaLM-7B对于各个模型之间优劣关系的判断完全一致。

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

总结

PandaLM提供了除人类评估与OpenAI API评估之外的第三条评估大模型的方案，PandaLM不仅评估水平高，而且评估结果可复现，评估流程自动化，保护隐私且开销低。

未来，PandaLM将推动学术界和工业界关于大模型的研究，使得更多人受益于大模型的发展。

相关文章

workbuddy部署安全配置_workbuddy安全部署指南【指南】

Audacity结合AI插件怎么自动修复音频_实用方法是什么【说明】

workbuddy任务怎么创建_workbuddy任务管理操作【操作】

OpenClaw跨平台使用_OpenClaw多平台兼容指南【指南】

Gemini怎么写商品描述_Gemini电商文案制作方法【教程】

相关标签:

chatgpt json 接口 github gpt-3 gpt-3.5 chatgpt https ui 自动化 gpt llama

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：从技术层面聊聊双目自动驾驶系统为何难以普及？下一篇：潜力与风险并存，美国政府针对人工智能技术向科技公司施压

作者最新文章

夸克浏览器AI搜索结果不准_优化夸克AI搜索设置的技巧

2025-10-26 10:58

微信朋友圈定时发送神器微信自动发朋友圈软件推荐与使用

2026-01-04 12:22

抖音火山版免费下载电脑版抖音火山版电脑版免费下载入口

2026-01-04 14:33

必应搜索怎样结合演员名找其主演电视剧_必应搜索用演员搜剧技巧【精要】

2026-01-07 17:31

微信自动发朋友圈怎么设置微信朋友圈一键定时发送方法

2026-01-16 12:58

微信小程序怎么定时发朋友圈免费微信朋友圈定时发送工具

2026-02-01 08:25

mysql如何进行子查询_mysql嵌套查询实现方法

2026-03-03 10:56

mysql如何注释SQL语句_mysql单行与多行注释规范

2026-03-04 09:49

mysql如何插入或忽略_mysql insert ignore用法

2026-03-10 03:53

mysql如何查看字段信息_mysql desc与describe

2026-03-11 10:25

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

更多

json数据格式

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

455

2023.08.07

json是什么

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

546

2023.08.23

jquery怎么操作json

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

334

2023.10.13

go语言处理json数据方法

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

82

2025.09.10

硬盘接口类型介绍

硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍：1、IDE接口是一种并行接口，主要用于连接硬盘和光驱等设备，它主要有两种类型：ATA和ATAPI，IDE接口已经逐渐被SATA接口；2、SATA接口是一种串行接口，相较于IDE接口，它具有更高的传输速度、更低的功耗和更小的体积；3、SCSI接口等等。

1923

2023.10.19

PHP接口编写教程

PHP接口编写教程

本专题整合了PHP接口编写教程，阅读专题下面的文章了解更多详细内容。

656

2025.10.17

php8.4实现接口限流的教程

php8.4实现接口限流的教程

PHP8.4本身不内置限流功能，需借助Redis（令牌桶）或Swoole（漏桶）实现；文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2392

2025.12.29

java接口相关教程

java接口相关教程

本专题整合了java接口相关内容，阅读专题下面的文章了解更多详细内容。

47

2026.01.19

C# ASP.NET Core微服务架构与API网关实践

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

3

2026.03.11

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

Django 教程

Django 教程

共28课时 | 4.9万人学习

Go 教程

Go 教程

共32课时 | 6.1万人学习

TypeScript 教程

TypeScript 教程

共19课时 | 3.4万人学习

最新文章

更多

Linux上OpenClaw怎么安装_OpenClawLinux安装技巧【技巧】

Perplexity手机端如何收藏回答_Perplexity内容收藏方法【操作】

RytrAI如何生成多版本文案_RytrAI批量创作技巧【汇总】

SoundrawAI生成背景音乐怎么用_音乐制作方法是什么【介绍】

Runway怎么导出高清视频_Runway输出设置方法【教程】

aishort怎么同步多设备数据_aishort跨设备使用设置方法【教程】

OpenClaw升级版本怎么操作_OpenClaw版本升级方法【方法】

MiniMax开发者如何接入模型能力_MiniMax开发接入流程指南【指南】

QClaw能不能自动整理手机相册_QClaw跨设备文件管理与同步【技巧】

NotionAI生成内容太简单怎么办_NotionAI提示词优化方法【方法】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部