谷歌没开源的PaLM，网友给开源了！千亿参数微缩版：最大只有10亿，8k上下文

王林

发布时间：2023-05-28 21:40:11

1389人浏览过

来源于51CTO.COM

转载

谷歌未开源的PaLM，网友竟给开源了。

昨天，一位开发者在GitHub上开源了三种微缩版的PaLM模型：参数分别为1.5亿（PalM-150m），4.1亿（PalM-410m）和10亿（PalM-1b）。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

项目地址：https://github.com/conceptofmind/palm

这三种模型在谷歌C4数据集进行了训练，上下文长度为8k。未来，还有20亿参数的模型正在训练中。

谷歌没开源的PaLM，网友给开源了！千亿参数微缩版：最大只有10亿，8k上下文

谷歌C4数据集

开源PaLM

使用4.1亿参数模型生成的示例:

My dog is very cute, but not very good at socializing with other dogs. The dog loves all new people and he likes to hang out with other dogs. I do need to take him to the park with other dogs. He does have some bad puppy breath, but it is only when he runs off in a direction he doesn't want to go. currently my dog is being very naughty. He would like to say hi in the park, but would rather take great care of himself for a while. He also has bad breath. I am going to have to get him some oral braces. It's been 3 months. The dog has some biting pains around his mouth. The dog is very timid and scared. The dog gets aggressive towards people. The dog is very playful and they are a little spoiled. I am not sure if it's a dog thing or if he is spoiled. He loves his toys and just wants to play. He plays with his toys all the time and even goes on walks. He is a little picky, not very good with other dogs. The dog is just a little puppy that goes to the park. He is a super friendly dog. He has not had a bad mouth or bad breath

我的狗很可爱，但是不善于和其他狗交际。这只狗喜欢所有新来的人，他喜欢和其他的狗一起玩。我确实需要带他和其他狗一起去公园。他确实有点小狗的口臭，但只有当他往不想去的方向跑的时候。现在我的狗很淘气。他想在公园里打个招呼，但宁愿好好照顾自己一段时间。他还有口臭。我得给他买个口腔矫正器，已经过去三个月了。这条狗嘴边有些咬痕疼痛。这只狗非常胆小和害怕。这条狗非常顽皮，他们有点被宠坏了。我不确定是狗的问题还是他被宠坏了。他喜欢他的玩具，只是想玩。他总是玩他的玩具，甚至去散步。他有点挑剔，不太会和其他狗相处。那只狗只是一只去公园的小狗。它是一只超级友好的狗。他没有口臭问题了。

OpenJobs AI

AI驱动的职位搜索推荐平台

下载

虽然参数确实有点少，但这生成的效果还是有些一言难尽……

这些模型兼容许多Lucidrain的流行仓库，例如Toolformer-pytorch、PalM-rlhf-pytorch和PalM-pytorch。

最新开源的三种模型都是基线模型，并将在更大规模数据集上进行训练。

所有的模型将在FLAN上进一步调整指令，以提供flan-PaLM模型。

谷歌没开源的PaLM，网友给开源了！千亿参数微缩版：最大只有10亿，8k上下文

开源的PaLM模型通过Flash Attention、 Xpos Rotary Embeddings进行训练，从而实现了更好的长度外推，并使用多查询单键值注意力机制进行更高效的解码。

在优化算法方面，采用的则是解耦权重衰减Adam W，但也可以选择使用Mitchell Wortsman的Stable Adam W。

目前，模型已经上传到Torch hub，文件也存储在Huggingface hub中。

如果模型无法从Torch hub正确下载，请务必清除 .cache/torch/hub/ 中的检查点和模型文件夹。如果问题仍未解决，那么你可以从Huggingface的仓库下载文件。目前，Huggingface 的整合工作正在进行中。

所有的训练数据都已经用GPTNEOX标记器进行了预标记，并且序列长度被截止到8192。这将有助于节省预处理数据的大量成本。

这些数据集已经以parquet格式存储在Huggingface上，你可以在这里找到各个数据块：C4 Chunk 1，C4 Chunk 2，C4 Chunk 3，C4 Chunk 4，以及C4 Chunk 5。

在分布式训练脚本中还有另一个选项，不使用提供的预标记C4数据集，而是加载和处理另一个数据集，如 openwebtext。

安装

在尝试运行模型之前，需要先进行一波安装。

<code>git clone https://github.com/conceptofmind/PaLM.gitcd PaLM/pip3 install -r requirements.txt</code>

使用

你可以通过使用Torch hub加载预训练的模型进行额外的训练或微调：

<code>model = torch.hub.load("conceptofmind/PaLM", "palm_410m_8k_v0").cuda()</code>

另外，你还可以通下面的方式直接加载PyTorch模型检查点：

<code>from palm_rlhf_pytorch import PaLMmodel = PaLM(num_tokens=50304, dim=1024, depth=24, dim_head=128, heads=8, flash_attn=True, qk_rmsnorm = False,).cuda()model.load('/palm_410m_8k_v0.pt')</code>

要使用模型生成文本，可以使用命令行:

prompt-用于生成文本的提示。

seq _ len-生成文本的序列长度，默认值为256。

temperature-采样温度，默认为0.8

filter_thres-用于采样的过滤器阈值。默认值为0.9。

model-用于生成的模型。有三种不同的参数（150m，410m，1b）：palm_150m_8k_v0，palm_410m_8k_v0，palm_1b_8k_v0。

<code>python3 inference.py "My dog is very cute" --seq_len 256 --temperature 0.8 --filter_thres 0.9 --model "palm_410m_8k_v0"</code>

为了提高性能，推理使用torch.compile()、 Flash Attention和Hidet。

如果你想通过添加流处理或其他功能来扩展生成，作者提供了一个通用的推理脚本「inference.py」。

训练

这几个「开源PalM」模型是在64个A100（80GB）GPU上完成训练的。

为了方便模型的训练，作者还提供了一个分布式训练脚本train_distributed.py。

你可以自由改变模型层和超参数配置以满足硬件的要求，并且还可以加载模型的权重并改变训练脚本来微调模型。

最后，作者表示会在将来加入一个具体的微调脚本，并对LoRA进行探索。

谷歌没开源的PaLM，网友给开源了！千亿参数微缩版：最大只有10亿，8k上下文

数据

可以通过运行build_dataset.py脚本，以类似于训练期间使用的C4数据集的方式预处理不同的数据集。这将对数据进行预标记，将数据分成指定序列长度的块，并上传到Huggingface hub。

比如：

<code>python3 build_dataset.py --seed 42 --seq_len 8192 --hf_account "your_hf_account" --tokenizer "EleutherAI/gpt-neox-20b" --dataset_name "EleutherAI/the_pile_deduplicated"</code>

PaLM 2要来了

2022年4月，谷歌首次官宣了5400亿参数的PaLM。与其他LLM一样，PaLM能执行各种文本生成和编辑任务。

PaLM是谷歌首次大规模使用Pathways系统将训练扩展到6144块芯片，这是迄今为止用于训练的基于TPU的最大系统配置。

它的理解能力拔群，不仅连笑话都能看懂，还能给看不懂的你解释笑点在哪。

谷歌没开源的PaLM，网友给开源了！千亿参数微缩版：最大只有10亿，8k上下文

就在3月中，谷歌首次开放其PaLM大型语言模型API。

谷歌没开源的PaLM，网友给开源了！千亿参数微缩版：最大只有10亿，8k上下文

这意味着，人们可以用它来完成总结文本、编写代码等任务，甚至是将PaLM训练成一个像ChatGPT一样的对话聊天机器人。

在即将召开的谷歌年度I/O大会上，劈柴将公布公司在AI领域的最新发展。

据称，最新、最先进的大型语言模型PaLM 2即将推出。

PaLM 2包含100多种语言，并一直在内部代号「统一语言模型」（Unified Language Model）下运行。它还进行了广泛的编码和数学测试以及创意写作。

上个月，谷歌表示，其医学LLM「Med-PalM2」，可以回答医学考试的问题，在「专家医生水平」，准确率为85% 。

此外，谷歌还将发布大模型加持下的聊天机器人Bard，以及搜索的生成式体验。

最新AI发布能否让谷歌挺直腰板，还得拭目以待。

Gemini 3.1 Pro— 谷歌推出的最新AI模型，主打复杂推理

Gemini 3 Deep Think— 谷歌推出的专用推理模型

PaperBanana— 北大联合谷歌推出的AI学术插图自动生成框架

RynnBrain— 阿里达摩院开源的具身智能大脑基础模型

免费AI翻译哪家强？DeepSeek/豆包/谷歌翻译横向对比

谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁，使用起来得心应手。这里提供了谷歌浏览器纯净安装包，有需要的小伙伴快来保存下载体验吧！

下载

相关专题

C++多线程并发控制与线程安全设计实践

本专题围绕 C++ 在高性能系统开发中的并发控制技术展开，系统讲解多线程编程模型与线程安全设计方法。内容包括互斥锁、读写锁、条件变量、原子操作以及线程池实现机制，同时结合实际案例分析并发竞争、死锁避免与性能优化策略。通过实践讲解，帮助开发者掌握构建稳定高效并发系统的关键技术。

2026.03.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

136

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

380

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

111

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

113

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

245

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

723

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板