0

0

PyTorch 中高效合并同键字典列表(值为张量)的推荐方法

聖光之護

聖光之護

发布时间:2026-03-10 16:15:11

|

992人浏览过

|

来源于php中文网

原创

PyTorch 中高效合并同键字典列表(值为张量)的推荐方法

本文介绍如何高效地将多个结构相同(键一致、值为同形张量)的字典合并为一个批量字典,避免手动循环+torch.stack,推荐直接复用 PyTorch 内置的 default_collate 函数,兼顾简洁性、鲁棒性与性能。

本文介绍如何高效地将多个结构相同(键一致、值为同形张量)的字典合并为一个批量字典,避免手动循环+`torch.stack`,推荐直接复用 pytorch 内置的 `default_collate` 函数,兼顾简洁性、鲁棒性与性能。

在 PyTorch 数据处理流程中,常需将一批样本(每个样本为 dict[str, Tensor])按字段聚合为批量字典——例如,{'input_ids': [t1, t2, ..., tn], 'attention_mask': [m1, m2, ..., mn]} → {'input_ids': torch.stack([t1,t2,...,tn]), 'attention_mask': torch.stack([m1,m2,...,mn])}。虽然手动遍历 + defaultdict + torch.stack 可行,但存在冗余逻辑、类型校验缺失及扩展性不足等问题。

更优解是直接使用 PyTorch 官方提供的 default_collate:

from torch.utils.data.dataloader import default_collate

# 假设 mention_inputs 是一个包含 N 个字典的列表,每个字典结构相同:
# [
#   {'feat_a': tensor([1.0, 2.0]), 'feat_b': tensor([0.1])},
#   {'feat_a': tensor([3.0, 4.0]), 'feat_b': tensor([0.2])},
#   ...
# ]
batch_dict = default_collate(mention_inputs)
# 输出:{'feat_a': tensor([[1., 2.], [3., 4.]]), 'feat_b': tensor([[0.1], [0.2]])}

default_collate 是 DataLoader 默认批处理函数,专为结构化数据设计:它递归识别嵌套结构,对同键张量自动执行 torch.stack(要求所有张量 shape 完全一致),对非张量(如 int/float/str)则转为 torch.tensor;若遇到不兼容类型(如混合张量与 list),会抛出清晰错误,便于调试。

Atoms.dev
Atoms.dev

AI创业智能体平台,通过多智能体系统实现业务自主构建与运营。

下载

优势总结

  • 零代码封装:无需手写 defaultdict 或显式循环;
  • 健壮性强:内置 shape 校验、设备/梯度一致性检查(如混合 CPU/Tensor 会报错);
  • 开箱即用:天然支持嵌套字典、列表、元组等常见结构;
  • 性能可靠:底层经充分优化,与 DataLoader 同源,无额外开销。

⚠️ 注意事项

  • 所有同键张量必须具有完全相同的 shape 和 dtype,否则 default_collate 将报 RuntimeError;
  • 若需自定义行为(如 padding 变长序列),应继承并重写 collate_fn,而非绕过 default_collate;
  • 不适用于含不可序列化对象(如 lambda、文件句柄)的字典——这本就不符合 PyTorch 数据流规范。

综上,当面对“同键字典列表 → 批量张量字典”这一高频任务时,default_collate 不仅是最简方案,更是最符合 PyTorch 设计哲学的工程实践。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
css中float用法
css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列,用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容,可以阅读本专题下面的文章。

594

2024.04.28

C++中int、float和double的区别
C++中int、float和double的区别

本专题整合了c++中int和double的区别,阅读专题下面的文章了解更多详细内容。

105

2025.10.23

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1010

2023.08.02

int占多少字节
int占多少字节

int占4个字节,意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值,在某些情况下也可能是2个字节或8个字节,int是一种常用的数据类型,用于表示整数,需要根据具体情况选择合适的数据类型,以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

607

2024.08.29

c++怎么把double转成int
c++怎么把double转成int

本专题整合了 c++ double相关教程,阅读专题下面的文章了解更多详细内容。

314

2025.08.29

C++中int的含义
C++中int的含义

本专题整合了C++中int相关内容,阅读专题下面的文章了解更多详细内容。

235

2025.08.29

lambda表达式
lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式,它可以在需要函数作为参数的地方使用,并提供了一种更简洁、更灵活的编码方式,其语法为“lambda 参数列表: 表达式”,参数列表是函数的参数,可以包含一个或多个参数,用逗号分隔,表达式是函数的执行体,用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容,供大家免费下载体验。

215

2023.09.15

python lambda函数
python lambda函数

本专题整合了python lambda函数用法详解,阅读专题下面的文章了解更多详细内容。

192

2025.11.08

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

4

2026.03.10

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号