击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

王林

发布时间：2023-06-10 19:46:58

1476人浏览过

来源于51CTO.COM

转载

前段时间，初出茅庐的猎鹰（Falcon）在LLM排行榜碾压LLaMA，在整个社区激起千层浪。

但是，猎鹰真的比LLaMA好吗？

简短回答：可能不是。

MusicLM
谷歌平台的AI作曲工具，用文字生成音乐

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

符尧团队对模型做了更深入的测评：

「我们在MMLU上复现了LLaMA 65B的评估，得到了61.4的分数，接近官方分数（63.4），远高于其在Open LLM Leaderboard上的分数（48.8），而且明显高于猎鹰（52.7）。」

没有花哨的提示工程，没有花哨的解码，一切都是默认设置。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

目前，Github上已经公开了代码和测试方法。

对于猎鹰超越LLaMA存疑，LeCun表态，测试脚本的问题...

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

LLaMA真·实力

目前在OpenLLM排行榜上，Falcon位列第一，超过了LLaMA，得到了包括Thomas Wolf在内的研究人员的力荐。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

然而，有些人对此表示疑虑。

先是一位网友质疑，LLaMA这些数字从哪来，看起来与论文数字不一致...

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

随后，OpenAI科学家Andrej Karpathy也对LLaMA 65B为什么在Open LLM排行榜上的分数明显低于官方（48.8 v.s. 63.4）表示关注。

并发文，到目前为止，我一直避免在推特上发表关于猎鹰的文章，因为这一点，不确定。

为了弄清楚这个问题，符尧和团队成员决定对LLaMA 65B进行一次公开的测试，结果得到61.4分。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

在测试中，研究者没有使用任何特殊机制，LLaMA 65B就能拿到这个分数。

这一结果恰恰证明了，如果想要模型实现接近GPT-3.5的水平，最好是在LLaMA 65B上使用RLHF。

根据就是，近来符尧团队发表的一篇Chain-of-Thought Hub论文的发现。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

当然，符尧表示，他们这一测评并非想要引起LLaMA和Falcon之间的争端，毕竟这些都是伟大的开源模型，都为这个领域做出了重大的贡献！

另外，Falcon还有更加方便的使用许可，这也让它有很大的发展潜力。

对于这一最新测评，网友BlancheMinerva指出，公平的比较应该在默认设置下运行猎鹰（Falcon）在MMLU上。

对此，符尧称这是正确的，并正进行这项工作，预计在一天后可以得到结果。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

不管最终的结果怎样，要知道GPT-4这座山峰才是开源社区真正想要追求的目标。

OpenLLM排行榜问题

来自Meta的研究人员称赞，符尧很好地再现了LLaMa的结果，并指出了OpenLLM排行榜的问题。

与此同时，他还分享了关于OpenLLM排行榜的一些问题。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

首先，MMLU的结果：LLaMa 65B MMLU结果在排行榜上是15分，但对7B模型来说是一样的。13B、30B模型也存在较小的性能差距。

OpenLLM真的需要在公布哪个模型是最好的之前看看这个。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

基准：这些基准是如何选择的？

ARC 25 shot和Hellaswag 10 shot似乎与LLM并不特别相关。如果能在其中加入一些生成式基准就更好了。虽然生成式基准有其局限性，但它们仍然是有用的。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

单一平均分：将结果减少到单一分数总是很吸引人的，平均分是最容易的。

但在这种情况下，4个基准的平均值真的有用吗？在MMLU上获得1分和在HellaSwag上获得1分是一样的吗？

在LLM快速迭代的世界里，开发这样一个排行榜肯定有一定的价值。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

还有来自谷歌研究人员Lucas Beyer也发表了自己的观点，

疯狂的是，NLP研究人员对同一个基准有不同的理解，因此导致了完全不同的结果。同时，每当我的同事实现一个指标时，我都会立即问他们是否真的检查将官方代码的完美重现，如果没有，就放弃他们的结果。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

另外，他还表示，据我所知，无论模型如何，它实际上都不会重现原始基准测试的结果。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

网友附和道，这就是LLM基准的现实...

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

Falcon——开源、可商用、性能强

说到Falcon，其实值得我们再好好回顾一下。

按LeCun的说法，大模型时代，开源最重要。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

而在Meta的LLaMA代码遭泄之后，各路开发者都开始跃跃欲试。

Falcon正是由阿联酋阿布扎比的技术创新研究所（TII）开发的一支奇兵。

刚发布时从性能上看，Falcon比LLaMA的表现更好。

目前，「Falcon」有三个版本——1B、7B和40B。

TII表示，Falcon迄今为止最强大的开源语言模型。其最大的版本，Falcon 40B，拥有400亿参数，相对于拥有650亿参数的LLaMA来说，规模上还是小了一点。

不过，此前TII曾表示，别看咱Falcon规模虽小，性能却很能打。

先进技术研究委员会(ATRC)秘书长Faisal Al Bannai认为，「Falcon」的发布将打破LLM的获取方式，并让研究人员和创业者能够以此提出最具创新性的使用案例。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

FalconLM的两个版本，Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前两名，而Meta的LLaMA则位于第三。

而前文所讲的有关排行榜的问题也正是这个。

尽管「Falcon」的论文目前还没公开发布，但Falcon 40B已经在经过精心筛选的1万亿token网络数据集的上进行了大量训练。

研究人员曾透露，「Falcon」在训练过程非常重视在大规模数据上实现高性能的重要性。

我们都知道的是，LLM对训练数据的质量非常敏感，这就是为什么研究人员会花大量的精力构建一个能够在数万个CPU核心上进行高效处理的数据管道。

目的就是，在过滤和去重的基础上从网络中提取高质量的内容。

目前，TII已经发布了精炼的网络数据集，这是一个经过精心过滤和去重的数据集。实践证明，非常有效。

仅用这个数据集训练的模型可以和其它LLM打个平手，甚至在性能上超过他们。这展示出了「Falcon」卓越的质量和影响力。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

此外，Falcon模型也具有多语言的能力。

它理解英语、德语、西班牙语和法语，并且在荷兰语、意大利语、罗马尼亚语、葡萄牙语、捷克语、波兰语和瑞典语等一些欧洲小语种上也懂得不少。

Falcon 40B还是继H2O.ai模型发布后，第二个真正开源的模型。

另外，还有一点非常重要——Falcon是目前唯一的可以免费商用的开源模型。

在早期，TII要求，商业用途使用Falcon，如果产生了超过100万美元以上的可归因收入，将会收取10%的「使用税」。

可是财大气粗的中东土豪们没过多长时间就取消了这个限制。

至少到目前为止，所有对Falcon的商业化使用和微调都不会收取任何费用。

土豪们表示，现在暂时不需要通过这个模型挣钱。

而且，TII还在全球征集商用化方案。

对于有潜力的科研和商业化方案，他们还会提供更多的「训练算力支持」，或者提供进一步的商业化机会。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

这简直就是在说：只要项目好，模型免费用！算力管够！钱不够我们还能给你凑！

对于初创企业来说，这简直就是来自中东土豪的「AI大模型创业一站式解决方案」。

根据开发团队称，FalconLM 竞争优势的一个重要方面是训练数据的选择。

研究团队开发了一个从公共爬网数据集中提取高质量数据并删除重复数据的流程。

在彻底清理多余重复内容后，保留了 5 万亿的token——足以训练强大的语言模型。

40B的Falcon LM使用1万亿个token进行训练， 7B版本的模型训练token达到 1.5 万亿。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

（研究团队的目标是使用RefinedWeb数据集从Common Crawl中仅过滤出质量最高的原始数据）

此外，Falcon的训练成本相对来说更加可控。

TII称，与GPT-3相比，Falcon在只使用75%的训练计算预算的情况下，就实现了显著的性能提升。

击败LLaMA？史上超强「猎鹰」排行存疑，符尧7行代码亲测，LeCun转赞

而且在推断（Inference）时只需要只需要20%的计算时间，成功实现了计算资源的高效利用。

AI制作建筑效果图，建筑师和室内设计师的效率革命

如何用AI进行市场趋势预测？消费品行业应用实例

豆包提示词生图指令怎么用豆包生图参数设置说明

如何利用AI进行多角度选题，避免内容创作枯竭

AI生成产品FAQ（常见问题解答）页面内容

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6172

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

819

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1068

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1356

2024.03.01

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

964

2026.01.21

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27

clawdbot ai使用教程保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手，可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等，并且可以接入用户常用的任何聊天APP，所有的操作均可通过WhatsApp、Telegram等平台完成，用户只需通过对话，就能操控设备自动执行各类任务。

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手，可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等，并且可以接入用户常用的任何聊天APP，所有的操作均可通过WhatsApp、Telegram等平台完成，用户只需通过对话，就能操控设备自动执行各类任务。

2026.01.29

Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用，包括对称加密与非对称加密（AES、RSA）、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范（如SQL注入、XSS、CSRF）及其防护措施。通过实战案例，帮助学习者掌握如何使用 Go 语言保障网络通信的安全性，保护用户数据与隐私。

2026.01.29

热门下载

网站特效

网站源码

网站素材

前端模板