0

0

在 Polars 中从字典合并 DataFrame 并保留来源名称

聖光之護

聖光之護

发布时间:2025-11-03 12:03:01

|

219人浏览过

|

来源于php中文网

原创

在 Polars 中从字典合并 DataFrame 并保留来源名称

本教程详细介绍了如何在 polars 中高效地将存储在字典中的多个 dataframe 垂直合并为一个单一的 dataframe,同时为每个原始 dataframe 添加一个新列,记录其在字典中的键(即来源名称)。通过结合使用列表推导式、`with_columns` 和 `pl.lit`,以及 `pl.concat` 函数,我们能够优雅地解决在数据整合过程中保留数据来源信息的常见需求,从而实现类似 r tidyverse 中 `bind_rows(.id)` 的功能。

在数据分析和处理中,我们经常会遇到需要从多个来源(例如不同的 Excel 工作表、CSV 文件或数据库查询结果)导入数据,并将它们存储在一个字典中,其中每个键代表一个数据源的名称,对应的值则是一个 Polars DataFrame。随后的一个常见需求是将这些分散的 DataFrame 合并成一个统一的 DataFrame,同时希望在新合并的数据中能够追溯每一行数据来自哪个原始来源。

例如,当我们从一个多工作簿的 Excel 文件中读取数据时,polars.read_excel 通常会返回一个字典,其中键是工作表名称,值是对应的 DataFrame。此时,我们希望将这些 DataFrame 垂直堆叠起来,并添加一个新列来标识原始的工作表名称。这类似于 R Tidyverse 中 bind_rows(.id = "ID") 的便捷功能。

Polars 提供了 pl.concat 函数用于垂直或水平地连接 DataFrame。然而,直接对字典中的 DataFrame 列表使用 pl.concat 会导致丢失原始的字典键(即来源名称)。为了解决这个问题,我们需要在合并之前,为每个 DataFrame 添加一个包含其来源名称的新列。

合并 DataFrame 并保留来源名称

要实现这一目标,我们可以结合使用 Python 的列表推导式、Polars 的 with_columns 方法和 pl.lit 函数,最终通过 pl.concat 完成合并。

核心思路:

  1. 遍历字典中的每个键值对(名称和 DataFrame)。
  2. 对于每个 DataFrame,使用 with_columns 方法添加一个新的列。
  3. 新列的值应是当前 DataFrame 在字典中的键(即来源名称)。pl.lit() 函数用于将一个 Python 值转换为 Polars 的字面量 Series,确保新列的所有行都包含相同的来源名称。
  4. 将所有经过修改的 DataFrame 收集到一个列表中。
  5. 使用 pl.concat 函数将这个列表中的所有 DataFrame 垂直合并。

示例数据:

假设我们有以下一个包含两个 Polars DataFrame 的字典:

Miniflow
Miniflow

AI工作流自动化平台

下载
import polars as pl

dcty = {
    "df1": pl.DataFrame({'col1': [1, 2], 'col2': ["a", "b"]}),
    "df2": pl.DataFrame({'col1': [3, 4], 'col2': ["c", "d"]}),
}

print("原始字典中的 DataFrame:")
print("df1:")
print(dcty["df1"])
print("\ndf2:")
print(dcty["df2"])

解决方案代码:

# 使用列表推导式为每个 DataFrame 添加 'sheet' 列,然后进行合并
combined_df = pl.concat(
    [df.with_columns(sheet=pl.lit(name)) for name, df in dcty.items()]
)

print("\n合并后的 DataFrame:")
print(combined_df)

代码解析:

  • for name, df in dcty.items(): 这部分遍历了字典 dcty 中的所有键值对。name 会依次是 "df1" 和 "df2",df 则是对应的 Polars DataFrame。
  • df.with_columns(sheet=pl.lit(name)): 这是解决方案的关键。
    • df.with_columns(...) 用于向 DataFrame 添加新列或修改现有列。
    • sheet=... 定义了新列的名称为 "sheet"。
    • pl.lit(name) 创建了一个字面量 Series。这意味着对于当前 df 中的所有行,新列 "sheet" 的值都将是当前的 name(例如 "df1" 或 "df2")。
  • [...]: 列表推导式将所有经过 with_columns 处理后的 DataFrame 收集到一个列表中。
  • pl.concat(...): 最后,pl.concat 函数接收这个 DataFrame 列表,并默认进行垂直合并(how="vertical")。

预期输出:

运行上述代码,将得到以下合并后的 DataFrame:

shape: (4, 3)
┌──────┬──────┬───────┐
│ col1 ┆ col2 ┆ sheet │
│ ---  ┆ ---  ┆ ---   │
│ i64  ┆ str  ┆ str   │
╞══════╪══════╪═══════╡
│ 1    ┆ a    ┆ df1   │
│ 2    ┆ b    ┆ df1   │
│ 3    ┆ c    ┆ df2   │
│ 4    ┆ d    ┆ df2   │
└──────┴──────┴───────┘

可以看到,col1 和 col2 列的数据已成功合并,并且新增了一个 sheet 列,准确地记录了每一行数据来自哪个原始 DataFrame。

注意事项

  1. Schema 一致性: pl.concat 在垂直合并 DataFrame 时,要求所有参与合并的 DataFrame 具有兼容的 Schema(即相同的列名和数据类型)。如果 Schema 不一致,Polars 可能会尝试进行类型推断或抛出错误。在实际应用中,如果来源 DataFrame 的 Schema 可能不一致,您可能需要在合并前进行数据清洗、列选择或类型转换,以确保兼容性。
  2. 性能考量: 对于包含大量 DataFrame 的字典,这种方法通常是高效的。Polars 在内部对这些操作进行了优化。
  3. 列名冲突: 确保您为来源名称指定的新列名(例如本例中的 sheet)不会与原始 DataFrame 中已有的列名冲突,否则现有列可能会被覆盖。

总结

通过本教程,我们学习了如何利用 Polars 的强大功能,将一个字典中的多个 DataFrame 垂直合并为一个单一的 DataFrame,并在合并过程中智能地添加一个新列以标识每个数据行的原始来源。这种方法在处理来自多个数据源的数据时非常实用,能够帮助我们更好地管理和理解数据。掌握 with_columns 和 pl.lit 与 pl.concat 的结合使用,将极大地提升您在 Polars 中的数据处理效率和灵活性。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

760

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

639

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

763

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

619

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1285

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

709

2023.08.11

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

11

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 12.4万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号