pandas读取Excel最常用pd.read_excel(),写入用df.to_excel();需注意引擎依赖(如openpyxl、xlrd)、参数设置(sheet_name、skiprows、dtype等)及大文件优化策略。

用pandas读取Excel文件最常用的方法是pd.read_excel(),写入则用df.to_excel()。关键在于参数设置和常见格式兼容性,不是所有Excel文件都能直接打开。
读取Excel:核心参数与常见问题
基础用法:df = pd.read_excel("data.xlsx")。默认读取第一个工作表(sheet),但实际中需注意:
-
指定工作表:用
sheet_name=0(索引)、"Sheet1"(名称)或None(读取全部,返回字典) -
跳过行/设置标题:用
skiprows=2跳过前两行,header=1表示第1行(0起始)为列名 -
处理空值与数据类型:用
na_values=["N/A", "NULL"]自定义缺失值标识;用dtype={"ID": str}强制列类型,避免数字自动转int后丢前导零 -
大文件优化:加
usecols="A:C"或[0, 1, 3]只读需要的列,大幅提速
写入Excel:保存多表与样式控制
df.to_excel("output.xlsx", index=False)是最简写法。进阶操作包括:
-
写入多个工作表:需用
pd.ExcelWriter上下文管理器,例如:
with pd.ExcelWriter("report.xlsx") as writer:
df1.to_excel(writer, sheet_name="汇总", index=False)
df2.to_excel(writer, sheet_name="明细", index=False)
立即学习“Python免费学习笔记(深入)”;
-
不覆盖已有文件:
mode="a"(追加模式)仅支持.xlsx,且需配合engine="openpyxl" -
冻结首行/列、调整列宽:需借助
openpyxl引擎,在写入后操作工作表对象,pandas本身不支持样式
依赖与格式支持说明
pandas本身不解析Excel,靠底层引擎:
-
xlsx/xlsm文件:推荐
openpyxl(安装:pip install openpyxl),支持读写、公式、图表 -
xls文件(旧版):必须用
xlrd(注意:v2.0+仅支持xls,不支持xlsx;如需兼容,降级到xlrd==1.2.0或改用openpyxl) - 无引擎报错:提示"Missing optional dependency 'openpyxl'"时,按需安装对应包即可
替代方案:超大文件或纯数值场景
如果Excel文件超10万行、内存吃紧,或只需读数值(无格式/公式):
- 用
csv中转:Excel另存为CSV,再用pd.read_csv(),速度更快、内存更省 - 用
openpyxl或xlrd原生读取单元格值,适合做精细定位(如读特定坐标、合并单元格逻辑) - 用
pyxlsb读取.xlsb二进制格式(微软内部格式,体积小、加载快)










