0

0

Pandas 教程:高效合并多 Excel 文件多工作表数据并解决常见错误

碧海醫心

碧海醫心

发布时间:2025-09-29 14:39:22

|

367人浏览过

|

来源于php中文网

原创

Pandas 教程:高效合并多 Excel 文件多工作表数据并解决常见错误

本教程详细介绍了如何使用 Python 的 Pandas 库高效地合并指定目录下的多个 Excel 文件中的特定工作表数据。文章通过迭代文件和工作表,将符合条件的数据导入到 Pandas DataFrame 字典中,并重点解析了 AttributeError: 'str' object has no attribute 'sheet_names' 这一常见错误及其解决方案,确保数据处理流程的顺畅与准确。

在数据分析和处理的日常工作中,我们经常需要处理分布在多个 excel 文件中的数据,并且每个文件可能包含多个工作表。将这些数据高效地整合到一起是提高工作效率的关键。本教程将指导您如何使用 pandas 实现这一目标,并特别关注如何避免和解决在处理过程中可能遇到的 attributeerror。

理解问题:AttributeError: 'str' object has no attribute 'sheet_names'

在尝试遍历 Excel 文件中的工作表时,一个常见的错误是 AttributeError: 'str' object has no attribute 'sheet_names'。这个错误通常发生在您尝试在一个字符串对象上调用或访问属于 pandas.ExcelFile 对象的方法或属性时。

例如,如果 path 是一个文件路径字符串,直接执行 path.sheet_names 会导致此错误,因为字符串对象并没有 sheet_names 这个属性。正确的做法是,首先使用 pd.ExcelFile() 将文件路径加载为一个 ExcelFile 对象,然后通过这个对象来访问其工作表名称。

解决方案:使用 Pandas 高效合并多工作表 Excel 数据

以下是使用 Pandas 合并指定目录下多个 Excel 文件中特定工作表数据的详细步骤和代码示例。

步骤一:环境准备与文件路径定义

首先,确保您已安装 Pandas 库。如果尚未安装,可以通过 pip install pandas openpyxl 进行安装(openpyxl 是 Pandas 读取 .xlsx 文件的后端引擎)。然后,定义您的 Excel 文件所在的目录路径。

import os
import pandas as pd

# 定义您的 Excel 文件所在的目录路径
# 请将 'your/excel/files/path' 替换为实际路径
excel_files_directory = 'your/excel/files/path' 

# 初始化一个字典,用于存储每个符合条件的工作表数据为一个 DataFrame
# 字典的键将是工作表名称,值是对应的 DataFrame
df_dict_flex = {}

步骤二:遍历目录并加载 Excel 文件

使用 os.walk() 函数可以递归地遍历指定目录及其子目录中的所有文件。对于每个找到的文件,我们需要检查它是否是 Excel 文件,然后使用 pd.ExcelFile() 将其加载。

Uni-CourseHelper
Uni-CourseHelper

私人AI助教,高效学习工具

下载
# 遍历指定目录下的所有文件
for root, dirs, files in os.walk(excel_files_directory):
    for fname in files:
        # 构建文件的完整路径
        file_path = os.path.join(root, fname)

        # 确保只处理 Excel 文件(.xlsx 或 .xls 格式)
        if file_path.endswith('.xlsx') or file_path.endswith('.xls'):
            print(f"正在处理文件: {file_path}")
            try:
                # 使用 pd.ExcelFile() 加载 Excel 文件,这将创建一个 ExcelFile 对象
                xls_file = pd.ExcelFile(file_path)

                # ... (后续步骤将在这里处理工作表)

            except Exception as e:
                print(f"无法加载文件 {file_path}:{e}")

关键点: xls_file = pd.ExcelFile(file_path) 是解决 AttributeError 的核心。它将文件路径字符串转换为一个 ExcelFile 对象,该对象拥有 sheet_names 属性和 parse() 方法。

步骤三:迭代工作表并按条件解析数据

加载 ExcelFile 对象后,我们可以通过其 sheet_names 属性获取所有工作表的名称。然后,您可以根据业务需求定义条件来筛选并解析特定的工作表。

import os
import pandas as pd

excel_files_directory = 'your/excel/files/path' 
df_dict_flex = {}

for root, dirs, files in os.walk(excel_files_directory):
    for fname in files:
        file_path = os.path.join(root, fname)

        if file_path.endswith('.xlsx') or file_path.endswith('.xls'):
            print(f"正在处理文件: {file_path}")
            try:
                xls_file = pd.ExcelFile(file_path)

                # 遍历当前 Excel 文件中的所有工作表名称
                for sheet_name in xls_file.sheet_names:
                    print(f"  发现工作表: {sheet_name}")

                    # 定义工作表筛选条件。这里以 'Portfolios' 和 'SP Search Term Req' 为例
                    # 您可以根据实际需求修改或扩展此条件
                    if sheet_name == 'Portfolios' or sheet_name == 'SP Search Term Req':
                        print(f"    正在解析工作表 '{sheet_name}'...")
                        # 使用 xls_file.parse() 方法解析指定工作表为 DataFrame
                        # 注意:这里是 xls_file.parse(),而不是 file.parse()
                        df = xls_file.parse(sheet_name)

                        # 将解析出的 DataFrame 存储到字典中
                        # 如果有多个文件包含相同名称的工作表,后解析的会覆盖前面解析的
                        # 如果需要合并相同名称的工作表数据,需要额外的逻辑(如 pd.concat)
                        df_dict_flex[sheet_name] = df
                        print(f"    工作表 '{sheet_name}' 数据已存储。")

            except Exception as e:
                print(f"无法加载或处理文件 {file_path}:{e}")

# 最终,df_dict_flex 字典将包含所有符合条件的工作表的 DataFrame
print("\n所有符合条件的工作表数据已成功加载到 df_dict_flex 字典中。")
print("字典键 (工作表名称):", df_dict_flex.keys())

# 示例:查看 'Portfolios' 工作表的数据(如果存在)
# if 'Portfolios' in df_dict_flex:
#     print("\n'Portfolios' 工作表数据示例:")
#     print(df_dict_flex['Portfolios'].head())

代码解析与注意事项

  1. os.walk(excel_files_directory): 这是遍历指定目录下所有文件和子目录的强大工具。它返回一个三元组 (root, dirs, files),其中 root 是当前目录路径,dirs 是当前目录下的子目录列表,files 是当前目录下的文件列表。
  2. os.path.join(root, fname): 安全地拼接路径,无论操作系统如何,都能生成正确的路径字符串。
  3. 文件类型过滤: if file_path.endswith('.xlsx') or file_path.endswith('.xls'): 确保我们只尝试处理 Excel 文件,避免对其他类型文件(如 .txt, .csv 等)进行不必要的或错误的解析。
  4. pd.ExcelFile(file_path): 这是解决 AttributeError 的核心。它将文件路径字符串转换为一个 ExcelFile 对象。这个对象代表了整个 Excel 文件,并提供了访问其工作表名称和内容的方法。
  5. xls_file.sheet_names: 这是一个属性(不是方法),它返回一个列表,包含当前 ExcelFile 对象中所有工作表的名称。
  6. xls_file.parse(sheet_name): 这是 ExcelFile 对象的一个方法,用于将指定名称的工作表解析为一个 Pandas DataFrame。
  7. 工作表名称匹配逻辑: 示例代码使用了 if sheet_name == 'Portfolios' or sheet_name == 'SP Search Term Req': 来筛选特定的工作表。您可以根据需要调整此逻辑,例如使用正则表达式进行模糊匹配,或维护一个需要导入的工作表名称列表。
  8. 错误处理: try...except 块用于捕获文件加载或解析过程中可能发生的错误,例如文件损坏、权限问题或格式不正确,从而增强程序的健壮性。
  9. 数据覆盖问题: 如果多个 Excel 文件中存在同名工作表,并且您的目标是合并这些同名工作表的数据,当前的 df_dict_flex[sheet_name] = df 会导致后解析的数据覆盖前解析的数据。若要合并,您需要引入额外的逻辑,例如使用 pd.concat():
    if sheet_name in df_dict_flex:
        df_dict_flex[sheet_name] = pd.concat([df_dict_flex[sheet_name], df], ignore_index=True)
    else:
        df_dict_flex[sheet_name] = df
  10. 内存管理: 对于包含大量工作表或非常大的 Excel 文件,一次性将所有数据加载到内存中可能会消耗大量资源。如果遇到内存问题,可以考虑分批处理、只加载必要列,或者使用 Dask 等工具进行大规模数据处理。

总结

通过本教程,您应该已经掌握了如何使用 Pandas 高效地遍历目录、加载多个 Excel 文件、筛选并解析其中的特定工作表,并将其存储到 Python 字典中。同时,我们详细解释了 AttributeError: 'str' object has no attribute 'sheet_names' 产生的原因及其解决方案,强调了正确使用 pd.ExcelFile 对象的重要性。掌握这些技巧将极大地提升您在处理复杂 Excel 数据集时的效率和代码的健壮性。请务必将代码中的 'your/excel/files/path' 替换为您的实际文件路径。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

512

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

251

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

745

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

213

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

236

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

531

2023.12.06

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 13.7万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号