0

0

Andrej Kaparthy 开源 nanochat:从零开始的极简全栈训练/推理方案

聖光之護

聖光之護

发布时间:2025-10-14 16:06:05

|

380人浏览过

|

来源于php中文网

原创

“vibe coding” 理念的倡导者 andrej karpathy 最近推出了一个名为「nanochat」的全新开源项目:

nanochat 是一个类似 ChatGPT 的大语言模型(LLM)全栈实现,代码库单一、简洁、最小化,高度可定制且依赖极少。它被设计为在单个配备 8XH100 的节点上运行,通过如 speedrun.sh 这类脚本完成从头到尾的完整流程。涵盖分词、预训练、微调、评估、推理,以及通过简易 UI 提供网络服务,让你能像使用 ChatGPT 一样与自己训练的 LLM 实时对话。https://www.php.cn/link/92ea7d01cd7d6245f19a2da8aa6534b4

以下是来自 Andrej Karpathy 推特的内容整理:

与我之前仅聚焦预训练的 nanoGPT 不同,nanochat 是一个极简、从零构建的完整 ChatGPT 克隆,覆盖训练和推理的全流程。整个系统被压缩进一个几乎无外部依赖的轻量级代码库中。

你只需启动一台云上的 GPU 服务器,运行一个脚本,大约 4 小时后,就能通过类似 ChatGPT 的网页界面与你自己训练的 LLM 对话。

整个项目约 8000 行代码,结构清晰,实现了如下功能:

  • 使用全新编写的 Rust 分词器进行训练
  • 在 FineWeb 数据集上预训练 Transformer 架构的 LLM,并在多个维度评估 CORE 指标
  • 在 SmolTalk 的用户-助手对话数据、多选题和工具使用场景上进行中期训练(Midtrain)
  • 执行 SFT(有监督微调),并在常识任务(ARC-E/C、MMLU)、数学(GSM8K)和代码生成(HumanEval)上评估性能
  • 可选地在 GSM8K 上应用 “GRPO” 算法进行强化学习(RL)
  • 推理引擎支持高效机制:KV cache、prefill/decode 分离、工具调用(通过轻量沙箱运行 Python 解释器),可通过命令行或类 ChatGPT 的 WebUI 交互
  • 自动生成一份 Markdown 格式的“成绩单”,对训练过程进行总结并引入游戏化展示

即便只投入约 100 美元(在 8×H100 节点上运行约 4 小时),你也能得到一个“迷你版 ChatGPT”,具备写故事、作诗、回答基础问题的能力。

经过约 12 小时训练后,模型在 CORE 指标上即可超越 GPT-2。当预算提升至约 1000 美元(总计约 41.6 小时训练),其输出连贯性显著提升,能够处理简单的数学题和编程任务,并通过多项选择测试。

钛投标
钛投标

钛投标 | 全年免费 | 不限字数 | AI标书智写工具

下载

举例来说,一个深度为 30 的模型,在训练 24 小时后(计算量大致相当于 GPT-3 Small 125M,约为 GPT-3 的千分之一),可在 MMLU 上获得 40+ 分,ARC-Easy 达到 70+,GSM8K 超过 20+。

我的目标是将一个完整的“强基线”技术栈整合进一个紧凑、易读、可修改、可复现的代码仓库中。

nanochat 将作为我正在开发的课程 LLM101n 的最终项目。

我相信它也有潜力像 nanoGPT 那样,演变为一个研究工具或评估基准平台。

当前版本尚未完全完成、调优或优化(仍存在大量可改进的空间),但整体框架已足够稳定,适合发布到 GitHub,供社区在此基础上持续迭代和完善各个模块。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C++系统编程内存管理_C++系统编程怎么与Rust竞争内存安全
C++系统编程内存管理_C++系统编程怎么与Rust竞争内存安全

C++系统编程中的内存管理是指 对程序运行时内存的申请、使用和释放进行精细控制的机制,涵盖了栈、堆、静态区等不同区域,开发者需要通过new/delete、智能指针或内存池等方式管理动态内存,以避免内存泄漏、野指针等问题,确保程序高效稳定运行。它核心在于开发者对低层内存有完全控制权,带来灵活性,但也伴随高责任,是C++性能优化的关键。

13

2025.12.22

Rust异步编程与Tokio运行时实战
Rust异步编程与Tokio运行时实战

本专题聚焦 Rust 语言的异步编程模型,深入讲解 async/await 机制与 Tokio 运行时的核心原理。内容包括异步任务调度、Future 执行模型、并发安全、网络 IO 编程以及高并发场景下的性能优化。通过实战示例,帮助开发者使用 Rust 构建高性能、低延迟的后端服务与网络应用。

9

2026.02.11

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

113

2026.03.05

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

435

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

601

2023.08.10

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

3778

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

490

2023.08.14

ChatGPT注册
ChatGPT注册

ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。

556

2023.09.12

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

44

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.8万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号