Pandas 教程：高效合并多 Excel 文件多工作表数据并解决常见错误

碧海醫心

发布时间：2025-09-29 14:39:22

367人浏览过

来源于php中文网

原创

Pandas 教程：高效合并多 Excel 文件多工作表数据并解决常见错误

本教程详细介绍了如何使用 Python 的 Pandas 库高效地合并指定目录下的多个 Excel 文件中的特定工作表数据。文章通过迭代文件和工作表，将符合条件的数据导入到 Pandas DataFrame 字典中，并重点解析了 AttributeError: 'str' object has no attribute 'sheet_names' 这一常见错误及其解决方案，确保数据处理流程的顺畅与准确。

在数据分析和处理的日常工作中，我们经常需要处理分布在多个 excel 文件中的数据，并且每个文件可能包含多个工作表。将这些数据高效地整合到一起是提高工作效率的关键。本教程将指导您如何使用 pandas 实现这一目标，并特别关注如何避免和解决在处理过程中可能遇到的 attributeerror。

理解问题：AttributeError: 'str' object has no attribute 'sheet_names'

在尝试遍历 Excel 文件中的工作表时，一个常见的错误是 AttributeError: 'str' object has no attribute 'sheet_names'。这个错误通常发生在您尝试在一个字符串对象上调用或访问属于 pandas.ExcelFile 对象的方法或属性时。

例如，如果 path 是一个文件路径字符串，直接执行 path.sheet_names 会导致此错误，因为字符串对象并没有 sheet_names 这个属性。正确的做法是，首先使用 pd.ExcelFile() 将文件路径加载为一个 ExcelFile 对象，然后通过这个对象来访问其工作表名称。

解决方案：使用 Pandas 高效合并多工作表 Excel 数据

以下是使用 Pandas 合并指定目录下多个 Excel 文件中特定工作表数据的详细步骤和代码示例。

步骤一：环境准备与文件路径定义

首先，确保您已安装 Pandas 库。如果尚未安装，可以通过 pip install pandas openpyxl 进行安装（openpyxl 是 Pandas 读取 .xlsx 文件的后端引擎）。然后，定义您的 Excel 文件所在的目录路径。

import os
import pandas as pd

# 定义您的 Excel 文件所在的目录路径
# 请将 'your/excel/files/path' 替换为实际路径
excel_files_directory = 'your/excel/files/path' 

# 初始化一个字典，用于存储每个符合条件的工作表数据为一个 DataFrame
# 字典的键将是工作表名称，值是对应的 DataFrame
df_dict_flex = {}

步骤二：遍历目录并加载 Excel 文件

使用 os.walk() 函数可以递归地遍历指定目录及其子目录中的所有文件。对于每个找到的文件，我们需要检查它是否是 Excel 文件，然后使用 pd.ExcelFile() 将其加载。

YOO必优科技-AI写作

智能图文创作平台，让内容创作更简单

下载

# 遍历指定目录下的所有文件
for root, dirs, files in os.walk(excel_files_directory):
    for fname in files:
        # 构建文件的完整路径
        file_path = os.path.join(root, fname)

        # 确保只处理 Excel 文件（.xlsx 或 .xls 格式）
        if file_path.endswith('.xlsx') or file_path.endswith('.xls'):
            print(f"正在处理文件: {file_path}")
            try:
                # 使用 pd.ExcelFile() 加载 Excel 文件，这将创建一个 ExcelFile 对象
                xls_file = pd.ExcelFile(file_path)

                # ... (后续步骤将在这里处理工作表)

            except Exception as e:
                print(f"无法加载文件 {file_path}：{e}")

关键点： xls_file = pd.ExcelFile(file_path) 是解决 AttributeError 的核心。它将文件路径字符串转换为一个 ExcelFile 对象，该对象拥有 sheet_names 属性和 parse() 方法。

步骤三：迭代工作表并按条件解析数据

加载 ExcelFile 对象后，我们可以通过其 sheet_names 属性获取所有工作表的名称。然后，您可以根据业务需求定义条件来筛选并解析特定的工作表。

import os
import pandas as pd

excel_files_directory = 'your/excel/files/path' 
df_dict_flex = {}

for root, dirs, files in os.walk(excel_files_directory):
    for fname in files:
        file_path = os.path.join(root, fname)

        if file_path.endswith('.xlsx') or file_path.endswith('.xls'):
            print(f"正在处理文件: {file_path}")
            try:
                xls_file = pd.ExcelFile(file_path)

                # 遍历当前 Excel 文件中的所有工作表名称
                for sheet_name in xls_file.sheet_names:
                    print(f"  发现工作表: {sheet_name}")

                    # 定义工作表筛选条件。这里以 'Portfolios' 和 'SP Search Term Req' 为例
                    # 您可以根据实际需求修改或扩展此条件
                    if sheet_name == 'Portfolios' or sheet_name == 'SP Search Term Req':
                        print(f"    正在解析工作表 '{sheet_name}'...")
                        # 使用 xls_file.parse() 方法解析指定工作表为 DataFrame
                        # 注意：这里是 xls_file.parse()，而不是 file.parse()
                        df = xls_file.parse(sheet_name)

                        # 将解析出的 DataFrame 存储到字典中
                        # 如果有多个文件包含相同名称的工作表，后解析的会覆盖前面解析的
                        # 如果需要合并相同名称的工作表数据，需要额外的逻辑（如 pd.concat）
                        df_dict_flex[sheet_name] = df
                        print(f"    工作表 '{sheet_name}' 数据已存储。")

            except Exception as e:
                print(f"无法加载或处理文件 {file_path}：{e}")

# 最终，df_dict_flex 字典将包含所有符合条件的工作表的 DataFrame
print("\n所有符合条件的工作表数据已成功加载到 df_dict_flex 字典中。")
print("字典键 (工作表名称):", df_dict_flex.keys())

# 示例：查看 'Portfolios' 工作表的数据（如果存在）
# if 'Portfolios' in df_dict_flex:
#     print("\n'Portfolios' 工作表数据示例:")
#     print(df_dict_flex['Portfolios'].head())

代码解析与注意事项

os.walk(excel_files_directory): 这是遍历指定目录下所有文件和子目录的强大工具。它返回一个三元组 (root, dirs, files)，其中 root 是当前目录路径，dirs 是当前目录下的子目录列表，files 是当前目录下的文件列表。
os.path.join(root, fname): 安全地拼接路径，无论操作系统如何，都能生成正确的路径字符串。
文件类型过滤: if file_path.endswith('.xlsx') or file_path.endswith('.xls'): 确保我们只尝试处理 Excel 文件，避免对其他类型文件（如 .txt, .csv 等）进行不必要的或错误的解析。
pd.ExcelFile(file_path): 这是解决 AttributeError 的核心。它将文件路径字符串转换为一个 ExcelFile 对象。这个对象代表了整个 Excel 文件，并提供了访问其工作表名称和内容的方法。
xls_file.sheet_names: 这是一个属性（不是方法），它返回一个列表，包含当前 ExcelFile 对象中所有工作表的名称。
xls_file.parse(sheet_name): 这是 ExcelFile 对象的一个方法，用于将指定名称的工作表解析为一个 Pandas DataFrame。
工作表名称匹配逻辑: 示例代码使用了 if sheet_name == 'Portfolios' or sheet_name == 'SP Search Term Req': 来筛选特定的工作表。您可以根据需要调整此逻辑，例如使用正则表达式进行模糊匹配，或维护一个需要导入的工作表名称列表。
错误处理: try...except 块用于捕获文件加载或解析过程中可能发生的错误，例如文件损坏、权限问题或格式不正确，从而增强程序的健壮性。
数据覆盖问题: 如果多个 Excel 文件中存在同名工作表，并且您的目标是合并这些同名工作表的数据，当前的 df_dict_flex[sheet_name] = df 会导致后解析的数据覆盖前解析的数据。若要合并，您需要引入额外的逻辑，例如使用 pd.concat()：
```
if sheet_name in df_dict_flex:
    df_dict_flex[sheet_name] = pd.concat([df_dict_flex[sheet_name], df], ignore_index=True)
else:
    df_dict_flex[sheet_name] = df
```
内存管理: 对于包含大量工作表或非常大的 Excel 文件，一次性将所有数据加载到内存中可能会消耗大量资源。如果遇到内存问题，可以考虑分批处理、只加载必要列，或者使用 Dask 等工具进行大规模数据处理。

总结

通过本教程，您应该已经掌握了如何使用 Pandas 高效地遍历目录、加载多个 Excel 文件、筛选并解析其中的特定工作表，并将其存储到 Python 字典中。同时，我们详细解释了 AttributeError: 'str' object has no attribute 'sheet_names' 产生的原因及其解决方案，强调了正确使用 pd.ExcelFile 对象的重要性。掌握这些技巧将极大地提升您在处理复杂 Excel 数据集时的效率和代码的健壮性。请务必将代码中的 'your/excel/files/path' 替换为您的实际文件路径。

如何在Python中正确解析和格式化CSV中的日期数据

如何在Python中正确解析并格式化CSV中的日期字段

如何在Python中正确解析和格式化CSV中的日期字段

Python中按空白单元格分组求和：高效实现Excel类似累计汇总

Pandas怎么存Excel文件_to_excel()与多Sheet写入ExcelWriter用法