0

0

使用Pandas合并多个Excel文件并自动添加文件名列

心靈之曲

心靈之曲

发布时间:2025-07-03 21:02:15

|

291人浏览过

|

来源于php中文网

原创

使用Pandas合并多个Excel文件并自动添加文件名列

本教程详细介绍了如何使用Python的Pandas库高效合并多个Excel文件。文章将指导读者通过遍历文件、读取数据,并在合并过程中为每条记录自动添加一个包含其来源文件名的列。这对于数据溯源和管理批量导入的数据至关重要,帮助用户轻松整合分散的数据并保持其来源信息。

在日常数据处理中,我们经常会遇到需要将多个结构相似的excel文件合并成一个统一数据集的场景。更进一步的需求是,在合并后的数据中,能够清晰地识别每条记录来源于哪个原始文件。本文将详细阐述如何利用pandas库实现这一目标,为合并后的数据添加一个“文件名”列,从而增强数据溯源能力。

准备工作

在开始之前,请确保你的Python环境中已经安装了pandas库。如果尚未安装,可以通过以下命令进行安装:

pip install pandas openpyxl

openpyxl是Pandas读取和写入.xlsx格式Excel文件所需的引擎。

我们还需要glob库来查找指定目录下的所有Excel文件,以及os库来处理文件路径。

import glob
import pandas as pd
import os

假设所有待合并的Excel文件都位于一个特定目录下,例如../content/。

空心菜的米库
空心菜的米库

1,对界面进行了美化2,对文件里边相同代码进行了综合3,增加了点击次数统计,并对3次点击以上的域名增加热门字样4,对本站出售和个人出售进行了划分5,增加钻石状态说明6,增加了完整的后台界面7,增加对资料修改功能8,增加回收站,可以任意删除域名、恢复删除域名和永久删除数据9,还有其他的细节大家自己看~10.增加域名证书显示11.域名到期时间采用日历控件形式12.后台登陆添加了验证码功能13.还有很多

下载

核心实现:合并文件与添加文件名

实现此功能的关键在于遍历每个文件,在读取数据后,立即为其添加一个表示来源文件名的列,然后将处理后的数据追加到总的DataFrame中。

以下是实现此功能的详细步骤和代码:

  1. 查找所有目标文件: 使用glob.glob()函数根据文件模式查找所有匹配的文件路径。
  2. 初始化合并后的DataFrame: 创建一个空的Pandas DataFrame,用于存储所有文件的合并数据。
  3. 遍历并处理每个文件:
    • 在循环中,逐一读取每个Excel文件。
    • 在读取数据时,可以指定跳过的行数(例如skiprows=1,跳过标题行)和需要使用的列(usecols)。
    • 关键步骤: 为当前文件读取到的DataFrame添加一个名为filename的新列,其值设置为当前文件的基本名称(不包含路径)。
    • 将处理后的当前文件DataFrame追加到之前初始化的总DataFrame中。
  4. 保存合并结果: 将最终合并的DataFrame保存为一个新的Excel文件。
import glob
import pandas as pd
import os

# 定义待处理Excel文件的目录和文件模式
# 假设所有Excel文件都以.xlsx结尾,并位于 '../content/' 目录下
file_pattern = '../content/*.xlsx'
files = glob.glob(file_pattern)

# 初始化一个空的DataFrame,用于存储所有合并后的数据
combined_df = pd.DataFrame()

# 定义我们感兴趣的列名,这些列将从每个Excel文件中读取
# 请根据实际Excel文件的列名进行调整
target_columns = ['Уровень', 'Код WBS', 'Код', 'Тип', 'Название']

print(f"发现 {len(files)} 个Excel文件待处理。")

# 遍历每个文件
for file_path in files:
    try:
        # 1. 读取Excel文件
        # skiprows=1 表示跳过第一行(通常是标题或不必要的信息)
        # usecols 指定只读取我们需要的列,提高效率并确保数据一致性
        df = pd.read_excel(file_path,
                           skiprows=1,
                           usecols=target_columns)

        # 2. 确保DataFrame只包含目标列,并按照指定顺序排列
        # 这一步在usecols已经指定的情况下,主要是为了明确列的顺序
        df = df[target_columns]

        # 3. 添加文件名列
        # os.path.basename(file_path) 用于提取文件名,不包含路径
        df['filename'] = os.path.basename(file_path)

        # 4. 将当前文件的数据追加到合并后的DataFrame
        # ignore_index=True 会重置索引,避免不同文件数据索引重复
        combined_df = pd.concat([combined_df, df], ignore_index=True)
        print(f"已成功处理文件: {os.path.basename(file_path)}")

    except FileNotFoundError:
        print(f"错误:文件未找到 - {file_path}")
    except KeyError as e:
        print(f"错误:文件 {os.path.basename(file_path)} 中缺少必要的列:{e}")
    except Exception as e:
        print(f"处理文件 {os.path.basename(file_path)} 时发生未知错误: {e}")
        # 可以选择跳过当前文件并继续处理下一个
        continue

# 定义输出文件的路径
output_file = "../content/multiplesheet.xlsx"

# 将合并后的数据保存到新的Excel文件
try:
    # index=False 避免将DataFrame的索引作为一列写入Excel文件
    combined_df.to_excel(output_file, sheet_name='Sheet', index=False)
    print(f"\n所有文件已成功合并并保存到: {output_file}")
except Exception as e:
    print(f"\n保存合并文件 {output_file} 时发生错误: {e}")

注意事项

  1. 文件路径与模式: glob.glob()支持通配符,如*.xlsx表示所有.xlsx文件,**/*.xlsx表示递归查找子目录中的所有.xlsx文件(需设置recursive=True)。请根据你的文件组织结构调整file_pattern。
  2. 列选择与跳过行:
    • skiprows参数非常有用,可以跳过Excel文件开头的非数据行,确保只读取到有效数据。
    • usecols参数可以指定需要读取的列名或列索引。这不仅可以减少内存消耗,还能避免读取不必要的列,并且在某些列不存在时,Pandas会抛出KeyError,有助于发现数据结构问题。
    • 代码中df = df[target_columns]这一行,在usecols已经指定列的情况下,主要作用是确保列的顺序与target_columns列表中的顺序一致。如果usecols已经保证了顺序且没有其他不需要的列,这一行可以省略。
  3. 文件名处理: 使用os.path.basename(file_path)可以只获取文件名部分,而不是完整的路径,这使得filename列的数据更加简洁和易读。如果需要完整的路径,可以直接使用file_path。
  4. 性能优化: 对于处理大量Excel文件(例如成百上千个)或单个文件非常大的情况,pd.concat在循环中频繁调用可能会导致性能问题。更优化的方法是先将每个文件读取到的DataFrame存储在一个列表中,然后在循环结束后一次性调用pd.concat:
    all_dfs = []
    for file_path in files:
        # ... 读取df,添加filename列 ...
        all_dfs.append(df)
    combined_df = pd.concat(all_dfs, ignore_index=True)
  5. 错误处理: 在实际应用中,文件可能不存在、文件格式不正确或缺少预期的列。使用try-except块可以捕获这些异常,防止程序崩溃,并提供有用的错误信息。
  6. 索引重置: pd.concat函数中的ignore_index=True参数至关重要。它会在合并后为新的DataFrame生成一个连续的默认整数索引,避免了原始DataFrame索引的重复或混乱。
  7. 输出文件: to_excel()函数中的index=False参数用于防止将DataFrame的内部索引作为一列写入到输出的Excel文件中。

总结

通过本教程,我们学习了如何利用Python的Pandas库高效地合并多个Excel文件,并为合并后的数据自动添加一个表示其来源文件名的列。这一方法不仅简化了数据整合过程,更重要的是,它为数据分析和溯源提供了极大的便利。掌握这一技巧,将使你在处理批量Excel数据时更加得心应手。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

56

2025.12.04

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

537

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

17

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

25

2026.01.06

PHP 高并发与性能优化
PHP 高并发与性能优化

本专题聚焦 PHP 在高并发场景下的性能优化与系统调优,内容涵盖 Nginx 与 PHP-FPM 优化、Opcode 缓存、Redis/Memcached 应用、异步任务队列、数据库优化、代码性能分析与瓶颈排查。通过实战案例(如高并发接口优化、缓存系统设计、秒杀活动实现),帮助学习者掌握 构建高性能PHP后端系统的核心能力。

101

2025.10.16

PHP 数据库操作与性能优化
PHP 数据库操作与性能优化

本专题聚焦于PHP在数据库开发中的核心应用,详细讲解PDO与MySQLi的使用方法、预处理语句、事务控制与安全防注入策略。同时深入分析SQL查询优化、索引设计、慢查询排查等性能提升手段。通过实战案例帮助开发者构建高效、安全、可扩展的PHP数据库应用系统。

86

2025.11.13

JavaScript 性能优化与前端调优
JavaScript 性能优化与前端调优

本专题系统讲解 JavaScript 性能优化的核心技术,涵盖页面加载优化、异步编程、内存管理、事件代理、代码分割、懒加载、浏览器缓存机制等。通过多个实际项目示例,帮助开发者掌握 如何通过前端调优提升网站性能,减少加载时间,提高用户体验与页面响应速度。

29

2025.12.30

excel对比两列数据异同
excel对比两列数据异同

Excel作为数据的小型载体,在日常工作中经常会遇到需要核对两列数据的情况,本专题为大家提供excel对比两列数据异同相关的文章,大家可以免费体验。

1396

2023.07.25

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

9

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Django 教程
Django 教程

共28课时 | 3.5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号