Python如何从Excel处理数据_表格数据读取与清洗方法【教程】

冷漠man

发布时间：2025-12-17 21:01:14

375人浏览过

来源于php中文网

原创

Python处理Excel数据核心是用pandas.read_excel安全读取，再清洗分析；需注意日期解析、空值处理、合并单元格填充、多层表头识别及导出限制。

python如何从excel处理数据_表格数据读取与清洗方法【教程】

Python处理Excel数据，核心是用pandas读取、清洗和分析，关键在于选对工具、避开常见坑（比如日期错乱、空值误判、合并单元格崩溃）。

用pandas.read_excel安全读取表格

别直接用xlrd或openpyxl手动解析——除非你要改样式。95%场景下，pandas.read_excel()够用且稳定。

指定sheet_name：支持字符串（表名）、整数（第几个表，从0开始）或列表（多表一起读）
跳过无效行：skiprows=2跳过前两行；skipfooter=1（旧版pandas）或用usecols限定列范围更可靠
处理日期：加parse_dates=['订单日期']，避免读成字符串；若自动识别失败，用date_parser自定义格式，如pd.to_datetime(df['日期'], format='%Y/%m/%d')
合并单元格？pandas会自动填充为NaN或重复值，读完立刻用df.fillna(method='ffill')向下填充（按列）

快速识别并清理脏数据

读进来先看df.info()和df.head()，重点盯三类问题：

空值：用df.isnull().sum()查每列空值数；删除整行用df.dropna(how='all')（全空才删），填充用df['销量'].fillna(df['销量'].median(), inplace=True)
异常值：数值列用df.describe()看min/max是否离谱；结合箱线图或df[(df['价格'] > df['价格'].quantile(0.99))]定位极值，再判断是删还是修正
格式混乱：如“¥1,234.50”这种带符号和逗号的文本型数字，用df['金额'] = df['金额'].str.replace(r'[¥,]', '').astype(float)

处理常见结构难题

真实Excel常有标题不齐、多级表头、备注行混入——不能靠肉眼调。

意兔-AI漫画相机

照片变漫画手绘，做周边好物

下载

立即学习“Python免费学习笔记（深入）”；

多层表头：用header=[0,1]读取前两行为列索引，之后用df.columns.get_level_values(0)或df.xs('销售额', axis=1, level=0)取某一层
标题在中间？先用df = pd.read_excel(file, header=None)全当纯数据读，再用df.iloc[5]找标题行，然后df.columns = df.iloc[5]; df = df.iloc[6:].reset_index(drop=True)
一列含多信息（如“张三-北京-男”）：用df[['姓名','城市','性别']] = df['原始列'].str.split('-', expand=True)

保存结果不丢格式（基础需求）

清洗完要保存回Excel，df.to_excel()默认不带索引，但注意：

加index=False避免多出一列序号
若需保留公式或图表——pandas做不到，改用openpyxl加载后写入数值：wb = load_workbook('原表.xlsx'); ws = wb['Sheet1']; ws['B2'] = df.iloc[0,1]; wb.save('新表.xlsx')
导出多个表到一个文件：with pd.ExcelWriter('汇总.xlsx') as writer: df1.to_excel(writer, sheet_name='清洗后'); df2.to_excel(writer, sheet_name='统计')

基本上就这些。不用追求一步到位，先读稳、再查清、后动刀——大部分Excel清洗，三步循环搞定。

Python中按空白单元格分组求和：高效实现Excel类似累计汇总

Pandas怎么存Excel文件_to_excel()与多Sheet写入ExcelWriter用法

Python Excel自动化怎么做_openpyxl批量读写单元格与高亮格式样式调整

Python怎么做透视表_pivot_table实现类似Excel的多维数据聚合统计

使用 Pandas 实现条件重置的累积求和（类似 Excel 的递推公式）

相关标签:

excel python 工具 pandas Float format 字符串循环 excel

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python自然语言处理模型如何生成高质量文本的训练技巧【教程】下一篇：Python爬虫异常如何处理_稳定性优化技巧【技巧】

作者最新文章

Linux进程五种状态转换原理及R与D状态性能影响分析

2026-03-14 12:24

Linux系统中线程Thread与轻量级进程LWP内在联系分析

2026-03-14 12:41

MacOS系统针对外部存储的Spotlight索引禁用设置

2026-03-14 13:02

Windows运维中利用GPO配置无线网络配置文件自动连接

2026-03-14 13:14

Java中Apache缓存雪崩现象的预防与后端保护逻辑

2026-03-14 13:22

Linux系统卡死问题_内核日志分析

2026-03-14 13:34

Linux 大促场景性能优化_削峰填谷策略

2026-03-14 13:43

Linux日志切割配置_logrotate实践

2026-03-14 13:53

SQLSQL注入防护_输入校验与参数化查询

2026-03-14 14:02

SQL批量删除优化_DELETE与TRUNCATE对比

2026-03-14 14:51

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列，用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容，可以阅读本专题下面的文章。

595

2024.04.28

C++中int、float和double的区别

本专题整合了c++中int和double的区别，阅读专题下面的文章了解更多详细内容。

108

2025.10.23

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

888

2023.07.31

python中的format是什么意思

python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

464

2024.06.27

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

热门下载

网站特效

网站源码

网站素材

前端模板