使用 Pandas 统计 List 中首个非空值的数量并添加到新列

心靈之曲

发布时间：2025-08-02 16:04:10

1000人浏览过

来源于php中文网

原创

使用 pandas 统计 list 中首个非空值的数量并添加到新列

本文档介绍了如何使用 Pandas 处理包含字典和列表的数据，并创建一个新列来统计特定列表中首个非空值的数量。我们将通过两种不同的方法，利用列表推导式和 Series 的 explode 方法，来实现这一目标，并提供相应的代码示例和详细解释。

方法一：使用列表推导式

这种方法直接利用 Python 的列表推导式，结合 Pandas 的 notna 函数，来判断列表中的元素是否为非空值。

首先，我们从 DataFrame 的 column_dic 列中提取每个字典，并访问其中的 list_A 列表。然后，提取每个 list_A 列表的第一个元素。最后，使用 pd.notna() 函数检查这些元素是否为非空值，并使用 sum() 函数计算 True 的数量，即非空值的数量。

import pandas as pd

data = [{"list_A": [2.93, 4.18, 4.18, None, 1.57, 1.57, 3.92, 6.27, 2.09, 3.14, 0.42, 2.09],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [2.51, 3.58, 3.58, None, 1.34, 1.34, 3.36, 5.37, 1.79, 2.69, 0.36, 1.79],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [None, 5.94, 5.94, None, 2.23, 2.23, 5.57, 8.9, 2.97, 4.45, 0.59, 2.97],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]}]

# 创建一个 DataFrame，其中包含一个名为 "column_dic" 的列
df = pd.DataFrame({"column_dic": [data]})


df['count_first_item'] = [pd.notna([y['list_A'][0] for y in x]).sum()
                          for x in df['column_dic']]
print (df)

代码解释：

[y['list_A'][0] for y in x]: 这是一个列表推导式，它遍历 df['column_dic'] 中的每个列表 x，然后遍历 x 中的每个字典 y，并提取 y['list_A'][0]，即 list_A 列表的第一个元素。
pd.notna(...): pd.notna() 函数检查列表中的每个元素是否为非空值，并返回一个布尔值列表。
.sum(): sum() 函数计算布尔值列表中 True 的数量，即非空值的数量。
df['count_first_item'] = ...: 将计算结果赋值给 DataFrame 的新列 count_first_item。

方法二：使用 Series.explode() 和 Series.str.get()

这种方法利用 Pandas 的 Series.explode() 函数将列表展开，然后使用 Series.str.get() 函数提取 list_A 列表，并使用索引 [0] 提取第一个元素。最后，使用 DataFrameGroupBy.count() 函数统计非空值的数量。

Flowith

一款GPT4驱动的节点式 AI 创作工具

下载

import pandas as pd

data = [{"list_A": [2.93, 4.18, 4.18, None, 1.57, 1.57, 3.92, 6.27, 2.09, 3.14, 0.42, 2.09],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [2.51, 3.58, 3.58, None, 1.34, 1.34, 3.36, 5.37, 1.79, 2.69, 0.36, 1.79],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [None, 5.94, 5.94, None, 2.23, 2.23, 5.57, 8.9, 2.97, 4.45, 0.59, 2.97],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]}]

# 创建一个 DataFrame，其中包含一个名为 "column_dic" 的列
df = pd.DataFrame({"column_dic": [data]})

df['count_first_item'] = (df['column_dic'].explode().str.get('list_A').str[0]
                                          .groupby(level=0).count())
print (df)

代码解释：

df['column_dic'].explode(): explode() 函数将 column_dic 列中的列表展开，将每个列表中的元素转换为 DataFrame 中的一行。
.str.get('list_A'): str.get('list_A') 函数提取每个字典中的 list_A 列表。
.str[0]: str[0] 提取 list_A 列表的第一个元素。
.groupby(level=0).count(): groupby(level=0) 函数按照原始 DataFrame 的索引进行分组，然后 count() 函数计算每个组中非空值的数量。

总结

本文介绍了两种使用 Pandas 统计列表中首个非空值的数量并添加到新列的方法。第一种方法使用列表推导式，代码更简洁，但可能在处理大型数据集时效率较低。第二种方法使用 Series.explode() 和 Series.str.get() 函数，代码更复杂，但在处理大型数据集时效率更高。您可以根据自己的实际情况选择合适的方法。

注意事项：

确保你的 Pandas 版本是最新的，以便使用 explode() 函数。
如果你的数据集中包含缺失值，请使用 pd.notna() 函数或 count() 函数来处理这些缺失值。
在处理大型数据集时，请考虑使用矢量化操作来提高代码的效率。

如何避免嵌套字典中因对象引用导致的意外值共享

Python 中嵌套字典赋值时的浅拷贝陷阱与正确初始化方法

Python中嵌套字典赋值时的浅拷贝陷阱与正确解决方案

如何在 Chainlit 应用中设置断点进行本地调试

如何在 Python Socket 客户端/服务器架构中可靠传输图像

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

203

2023.11.20

chatgpt官网入口地址合集

本专题整合了chatgpt官网入口地址、使用教程等内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

minimax入口地址汇总

本专题整合了minimax相关入口合集，阅读专题下面的文章了解更多详细地址。

2026.03.16

C++多线程并发控制与线程安全设计实践

本专题围绕 C++ 在高性能系统开发中的并发控制技术展开，系统讲解多线程编程模型与线程安全设计方法。内容包括互斥锁、读写锁、条件变量、原子操作以及线程池实现机制，同时结合实际案例分析并发竞争、死锁避免与性能优化策略。通过实践讲解，帮助开发者掌握构建稳定高效并发系统的关键技术。

2026.03.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

114

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

141

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

396

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板