这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

WBOY

发布时间：2024-09-08 15:48:07

474人浏览过

来源于机器之心

转载

最近，开源大模型社区再次「热闹」了起来，主角是 ai 写作初创公司 hyperwrite 开发的新模型 reflection 70b。

它的底层模型建立在 Meta Llama 3.1 70B Instruct 上，并使用原始的 Llama chat 格式，确保了与现有工具和 pipeline 的兼容性。

这个模型横扫了 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

凭借如此惊艳的效果，Reflection 70B 被冠以开源大模型新王。该模型更是由两位开发者（HyperWrite CEO Matt Shumer 和 Glaive AI 创始人 Sahil Chaudhary）花了 3 周完成，效率可谓惊人。

Reflection 70B 能不能经受住社区的考验呢？今天 AI 模型独立分析机构 Artificial Analysis 进行了独立评估测试，结果有点出乎意料。

该机构表示，Reflection Llama 3.1 70B 的 MMLU 得分仅与 Llama 3 70B 相同，并且明显低于 Llama 3.1 70B。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

^{图源：https://x.com/ArtificialAnlys/status/1832505338991395131}

还有科学推理与知识（GPQA）和定量推理（MATH）基准测试的结果，同样不如 Llama 3.1 70B。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

^{图源：https://x.com/ArtificialAnlys/status/1832457791010959539}

此外，Reddit 上 LocalLLaMA 社区的一个帖子比较了 Reflection 70B 与Llama 3.1、Llama 3 权重的差异，结果显示，Reflection 模型似乎是使用了经过 LoRA 调整的 Llama 3 而不是 Llama 3.1。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

贴主还提供了以上模型权重比较结果的代码来源。

Mokker AI

AI产品图添加背景

下载

from transformers import AutoModelForCausalLM, AutoTokenizerimport torchimport matplotlib.pyplot as pltimport seaborn as snsbase_model_name = "meta-llama/Meta-Llama-3-70B-Instruct"chat_model_name = "mattshumer/Reflection-Llama-3.1-70B"base_model = AutoModelForCausalLM.from_pretrained(base_model_name, torch_dtype=torch.bfloat16)chat_model = AutoModelForCausalLM.from_pretrained(chat_model_name, torch_dtype=torch.bfloat16)def calculate_weight_diff(base_weight, chat_weight):return torch.abs(base_weight - chat_weight).mean().item()def calculate_layer_diffs(base_model, chat_model):layer_diffs = []for base_layer, chat_layer in zip(base_model.model.layers, chat_model.model.layers):layer_diff = {'input_layernorm': calculate_weight_diff(base_layer.input_layernorm.weight, chat_layer.input_layernorm.weight),# 'mlp_down_proj': calculate_weight_diff(base_layer.mlp.down_proj.weight, chat_layer.mlp.down_proj.weight),# 'mlp_gate_proj': calculate_weight_diff(base_layer.mlp.gate_proj.weight, chat_layer.mlp.gate_proj.weight),# 'mlp_up_proj': calculate_weight_diff(base_layer.mlp.up_proj.weight, chat_layer.mlp.up_proj.weight),'post_attention_layernorm': calculate_weight_diff(base_layer.post_attention_layernorm.weight, chat_layer.post_attention_layernorm.weight),'self_attn_q_proj': calculate_weight_diff(base_layer.self_attn.q_proj.weight, chat_layer.self_attn.q_proj.weight),'self_attn_k_proj': calculate_weight_diff(base_layer.self_attn.k_proj.weight, chat_layer.self_attn.k_proj.weight),'self_attn_v_proj': calculate_weight_diff(base_layer.self_attn.v_proj.weight, chat_layer.self_attn.v_proj.weight),'self_attn_o_proj': calculate_weight_diff(base_layer.self_attn.o_proj.weight, chat_layer.self_attn.o_proj.weight)}layer_diffs.append(layer_diff)return layer_diffsdef visualize_layer_diffs(layer_diffs):num_layers = len(layer_diffs)num_components = len(layer_diffs[0])fig, axs = plt.subplots(1, num_components, figsize=(24, 8))fig.suptitle(f"{base_model_name} <> {chat_model_name}", fontsize=16)for i, component in enumerate(layer_diffs[0].keys()):component_diffs = [[layer_diff[component]] for layer_diff in layer_diffs]sns.heatmap(component_diffs, annot=True, fmt=".6f", cmap="YlGnBu", ax=axs[i], cbar_kws={"shrink": 0.8})axs[i].set_title(component)axs[i].set_xlabel("Layer")axs[i].set_ylabel("Difference")axs[i].set_xticks([])axs[i].set_yticks(range(num_layers))axs[i].set_yticklabels(range(num_layers))axs[i].invert_yaxis()plt.tight_layout()plt.show()layer_diffs = calculate_layer_diffs(base_model, chat_model)visualize_layer_diffs(layer_diffs)

还有人贴出了 Matt Shumer 在 Hugging Face 对 Reflection 70B 配置文件名称的更改，可以看到从 Llama 3 70B Instruct 到 Llama 3.1 70B Instruct 的变化。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

这样的事实摆在眼前，似乎让人不得不信。各路网友也开始发声附和，有人表示自己从一开始就怀疑它是 Llama 3，当用德语问模型一些事情时，它却用英语回答。这种行为对于 Llama 3 非常常见。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

还有人奇怪为什么 Reflection 70B 模型一开始就得到了如此多的炒作和关注，毕竟第一个谈论它是「顶级开源模型」的人是开发者本人（Matt）。而且更确切地说，模型是微调的。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

更有人开始质疑开发者（Matt），认为他只是这家公司（GlaiveAI）的利益相关者，试图通过炒作来增加价值，实际上却对这项技术一无所知。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

在被质疑 Reflection 70B 的基础模型可能是 Llama 3 而非 Llama 3.1 70B 时，Matt Shumer 坐不住了，现身进行了澄清，并表示是 Hugging Face 权重出现了问题。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

就在几个小时前，Matt Shumer 称已经重新上传了权重，但仍然存在问题。同时他们开始重新训练模型并上传，从而消除任何可能出现的问题，应该很快就会完成。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

当被问到为何需要重新训练时，Matt Shumer 表示本不需要这样做，但已经尝试了所有方法。无论做什么，Hugging Face 上 Reflection 70B 模型都会出现问题，导致离预期中的性能差得远。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

当然 Matt Shumer 还面临更多质疑，比如对 GlaiveAI 的投资情况、为什么 Hugging Face 上的基础模型为 Llama 3 而不是 Llama 3.1 以及基准中有关 LORAing 的问题。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

Matt Shumer 一一进行了解释。（以下标引用）

1. 我是一个超级小的投资者（1000 美元），只是一次支持性的投资，因为我认为 Sahil Chaudhary 很棒。
2. 至于为什么基础模型是 Llama 3，我们不知道。这就是为什么我们从头开始再训练，应该很快完成。
3. 那些尝试了 Playground 并拥有早期访问权限的用户获得了与托管 API 截然不同的体验，我们需要弄清楚这一点。
4. 不确定什么是 LORAing，但我们检查了污染，将在下周与 405B（或更早）一起发布数据集，到时候可以查看。

至于重新训练后的 Reflection 70B 表现如何？我们拭目以待。

^{参考链接：}

^{https://www.reddit.com/r/LocalLLaMA/comments/1fb6jdy/reflectionllama3170b_is_actually_llama3/}

AI生成活动现场的即时新闻稿

贾跃亭：法拉第未来当前股价被严重低估目标价5美元

内存飙升成本暴涨汽车会涨价还是减配？

10家中国车企入围入围财富世界500强比亚迪进前百

关税压力下创纪录！韩国汽车年出口额达720亿美元

相关专题

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2913

2024.08.16

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

136

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

226

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

504

2026.03.04