Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

絕刀狂花

发布时间：2025-04-23 16:52:28

970人浏览过

来源于php中文网

原创

昨天一早，meta 了放出自家用了 20 万显卡集群训练出的 llama 4 系列模型，其中包括 llama 4 scout、llama 4 maverick 和 llama 4 behemoth。消息一出，直接引爆了大模型圈。

Meta 还特意强调，这些模型都经过了大量未标注的文本、图像和视频数据的训练，视觉理解能力已经到了 Next level，有种在大模型领域一骑绝尘的既视感。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

Meta GenAI 负责人 Ahmad Al-Dahle 也表示：“我们的开放系统将产出最好的小型、中型和即将出现的前沿大模型。”并附上了一张 Llama 4 的性能对比测试图。

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

紧接着，在大模型竞技场中 Llama 4 Maverick 的排名直接跃升到第二名，成为了第 4 个突破 1400 分的大模型。在开放模型排行榜上更是超越了 DeepSeek，直接上桌坐“主座”。

“首次采用 MoE 架构”、“千万 token 上下文”...一时间 Llama 4 就被贴满了各种 Title。

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

但在一片赞美和吹捧声中，很快就有心细的网友发现了不对劲。这位网友用头段时间在 ? 上很火的让模型直出几何程序的方式来测试 Llama 4，但最终的结果是在画六角形内含一个受重力影响球的集合图像时，Llama 4 试了 8 次也错了 8 次，而反观 DeepSeek R1 和 Gemini 2.5 pro 则是一次正确。

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

也有网友表示对 Llama 4 的表现感到非常失望。按照以往惯例，更新了版本号的模型在性能上应该有很大的突破，而 Meta 憋了这么久才舍得放出来的 Llama 4 非但没有进步，在测试中的表现还不如一些现有的大模型。

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

还有网友非常贴心的给出 Llama 4 系列的模型能力找了个参照物：“Llama 4 maverick 这个 402B 的大模型，大概跟 Qwen QwQ 32B 写代码水平一致，而 Llama 4 scout 则近似于 Grok2 或者文心 4.5。”

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

Llama 4：超级刷榜选手

在官方给出的数据中，Llama 4 的能力妥妥碾压了一众大模型，但在网友们的实际测试中，Llama 4 却显得很拉跨，越测越觉得离谱的网友们不由得怀疑，扎克伯格是不是给自家模型偷偷刷榜了？

经过网友们的多方证实，最后发现，嘿！还真是刷的。

其实如果认真看 Ahmad Al-Dahle 发布的 Llama 性能对比测试图最下面一行的小字，你就会发现上面写着“Llama 4 Maverick 针对对话进行了优化”，而 Meta 其实早就给自己留了个“图片仅供参考，一切以实物为准”的心眼。

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

除了破解 Meta 官方的字谜游戏外，网友们也带着 Llama 4 进出于各大测试榜单中。

他们先是把 Llama 4 拉到了著名的 code 测试榜单 Aider ployglot 中，最终的得分比 qwen-32B还低。

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

在另一个代码评测榜单中，Llama 4 的成绩也只能排在中间位置。

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

除此之外，网友们发现在 EQBench 测评基准的长文章写作榜上，Llama 4 系列也是直接垫底。

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

Insou AI

Insou AI 是一款强大的人工智能助手，旨在帮助你轻松创建引人入胜的内容和令人印象深刻的演示。

下载

而即使是最基础的翻译任务，网友们也表示 Llama 4 的表现也是比 3.3 的 70b 还要差得多，甚至还不如 Gemma 3 的 27B。

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

混乱的 Meta

正在网友们风风火火测评 Llama 4 的真实成绩时，一则发布在海外的求职平台一亩三分地上的内容更是直接给Llama 4 的作弊传闻填了一把柴。

文中提到 Llama 4 的训练存在严重问题，并且内部模型的表现仍然未能达到开源 SOTA，甚至与之相差甚远，而 Llama 4 的高分也确实是领导层为了能够在各项指标上交差所做出的“努力”。而这个则消息的爆料者，很可能来自 Meta 公司内部。

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

除此之外也有其他的 AI 从业者在线吐槽，表示“我们都被耍了，Llama 4 不过是一个早早被设计好的实验版本。”

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

还有前 Meta 员工站出来指出公司在产品研发方面存在巨大漏洞，并表示 Llama 系列模型的信息泄露问题其实从 Llama 1 就已经存在了。

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

而在 Llama 4 发布的几天前，Meta AI 研究副总裁 Joelle Pineau 就在 Linkedin 发文称自己已经申请将在 5 月份离职，不由得让人们将这件事与 Llama 4 作弊刷榜的事情联系到一起。

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

不少人疑惑，为什么一向崇尚“大力出奇迹”的 Meta 这次的翻车力度这么大，明明有钱、有卡、有数据，但模型创新能力依旧不足，还要靠作弊刷榜来找存在感？

一个坊间流传的观点是，Meta内部研究人员压力过大，因为他们需要做出成果，给公司一个好的交代，因此会求稳，更加偏向于更能做出成果的事情，而真正重要的内容，比如基础设施的迭代、新算法的实验，这些需要大量时间去做出成果的内容，却往往没有人愿意去做。

这也导致了 Meta 很难在大模型市场上继续做出向 DeepSeek R1 这样轰动整个 AI 领域的东西，而还没有发布的超大杯 2T 参数模型也应证着这个观点：Meta 其实还没有更好的想法。

反观以研究为导向的 DeepSeek，其实一直在探索新的架构。DeepSeek 团队先是提出了强化学习里的神奇算法 GRPO，紧接着在 DeepSeek v2 时提出的 MLA 原理直接沿用到了 DeepSeek V3 和 DeepSeek R1 版本上，后来发布的全新注意力架构 NSA 更是实现了超高速长上下文训练与推理。

回到 Llama 4 这边，根据AI科技评论的了解，对大模型架构有研究的专业人士认为，Llama 4 非常缺乏技术创新，比如说，在后训练阶段还在死守DPO。而此前的一系列理论和实验都表明 DPO 的泛化能力，“比PPO差得远”。PPO在实际使用中需要调的细节很多，不易上手。在DeepSeek提出GRPO以后，越来越多的研究者开始使用GRPO及其改版。 Meta 还继续坚持用着 DPO 而不选择创新，这么来看 Llama 4 做成如此也属于意料之中。

常人没法用，专家用不着

而最让人失望的是，Llama 4 系列的模型都无法放入家用电脑，并且 Llama 4 除了一直在宣传的 10M 上下窗口外，貌似已经没有任何优势，而这一点对于大多数人来说其实并不是必需的内容。

除此之外，GPT 4o， Gemini 2.5 Pro 这些拥有生图能力的模型型号已经正式推出，而 Grok3、Gemini 2 Flash 等多模态模型也已经开始广泛开放，这也意味着更多的人没有再用 Llama 4 的理由，或者说，Llama 4 本身没有太强的市场竞争力。

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

反观这次 Llama 4 的翻车事件，不难看出其实 Llama 4 系列模型很可能是 Meta 在追赶大模型潮流的战略布局中的一枚重要棋子，但却因为太过于“急功近利”而选择作弊，导致直接失去了社区的支持，进而失去了自身的竞争优势。

并且 Llama 2、Llama 3 的时代已经过去，选择 Llama 作为基座的开源模型只会越来越少，PHP中文网(公众号：PHP中文网)认为对于 Meta 来说，与其选择作弊刷榜博眼球，不如想想如何创新，如何提高社区适用度，能不能追上最前端的技术暂且放一边，最重要的是先把口碑先赚回来。

Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

OpenClaw能在平板电脑上流畅玩吗_OpenClaw安卓平板优化使用方法【技巧】

WorkBuddy怎么批量重命名文件？高效整理电脑文件夹方法【指南】

WorkBuddy如何远程调整电脑的屏幕亮度_WorkBuddy移动端节能管理方法【黑科技】

WorkBuddy如何一键清理系统缓存垃圾_WorkBuddy电脑瘦身与运行优化指南【秘籍】

WorkBuddy如何通过手机指令进行电脑锁屏_WorkBuddy远程隐私保护操作教程【安全】

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04