Python Pandas 数据清洗实战案例

冰川箭仙

发布时间：2026-03-09 15:21:11

579人浏览过

来源于php中文网

原创

数据清洗是数据分析前最关键的一步，pandas提供处理缺失值、重复值、异常值、格式不一致和类型错误等工具，需结合业务逻辑分步迭代执行并验证。

python pandas 数据清洗实战案例

数据清洗是数据分析前最关键的一步，Pandas 提供了丰富且实用的工具来处理缺失值、重复值、异常值、格式不一致和类型错误等问题。下面通过一个贴近真实业务的销售订单数据清洗实战案例，带你一步步完成从原始数据到分析就绪数据的全过程。

识别并处理缺失值

缺失值常见于用户未填写、系统采集失败或导出异常等情况。直接删除可能丢失重要样本，盲目填充又可能引入偏差。

建议先用 df.isnull().sum() 查看各列缺失数量，再结合业务判断处理方式：

对“客户邮箱”这类非必需但有分析价值的字段，可保留空值，后续建模时再做one-hot或标记为“未知”
对“订单金额”缺失，检查是否与“订单状态=已取消”强相关——若是，可填充为0；否则考虑用同城市/同商品类别的中位数填充
对整行缺失超过3个关键字段（如订单号、日期、金额）的记录，建议直接删除：df.dropna(thresh=4, inplace=True)

去重与主键校验

订单数据中，“订单号”应唯一。但实际常出现因同步延迟、重复提交导致的完全重复行，或仅时间戳微调的近似重复。

立即学习“Python免费学习笔记（深入）”；

分两步处理：

Replit Ghostwrite

一种基于 ML 的工具，可提供代码完成、生成、转换和编辑器内搜索功能。

下载

用 df.duplicated(subset=['订单号'], keep='first') 找出重复订单号，并人工抽检几条确认是否真重复
若存在“同一订单号+不同支付渠道”的合法多行情况，需明确业务规则：是否应合并？还是保留明细？确定后用 groupby('订单号').agg(...) 合并金额、拼接渠道等
对无业务意义的全字段重复，直接 df.drop_duplicates(inplace=True)

统一时间与文本格式

原始数据中，“下单时间”可能是字符串（'2024/03/15 14:28'、'2024-03-15T14:28:05'）、数值（Excel序列号）甚至混入“暂未支付”等文本。

清洗要点：

先用 pd.to_datetime(df['下单时间'], errors='coerce') 转换，失败的自动变为 NaT，便于定位异常
对含“暂未支付”的行，可新增列 df['下单时间_状态'] = df['下单时间'].apply(lambda x: '待支付' if '暂未' in str(x) else '已下单')
“商品名称”常有空格、大小写、符号不一致（如“iPhone15” vs “iphone 15”），用 df['商品名称'] = df['商品名称'].str.strip().str.lower().str.replace(r'[^a-z0-9\u4e00-\u9fa5]', '', regex=True) 标准化

修正数据类型与异常数值

看似数字的列（如“数量”“折扣率”）可能被读成 object 类型，或混入“—”“NULL”“N/A”等非数值字符。

操作建议：

用 df['数量'] = pd.to_numeric(df['数量'], errors='coerce') 强制转数值，异常值变 NaN，再结合业务判断：负数数量是否合理？0 是否代表赠品？
“折扣率”本应在 0–1 之间，发现值为 85 的记录，大概率是百分比录入错误，统一除以 100：df.loc[df['折扣率'] > 1, '折扣率'] /= 100
对“省份”列中“北京市”“北京”“京”混用的情况，建立映射字典标准化：province_map = {'京': '北京市', '沪': '上海市', ...}，再用 df['省份'].replace(province_map, inplace=True)

清洗不是一次性的操作，而是一个迭代过程：每步处理后都应检查 df.info() 和 df.describe(include='all')，对比清洗前后分布变化。把关键清洗逻辑封装成函数，配合断言（如 assert df['订单号'].is_unique）能大幅提升可维护性与可信度。

Python中一切皆对象如何理解_对象模型说明

Python字典视图对象是什么_keys与items行为解析

Python线程同步机制_Lock与RLock区别

Pandas DataFrame 中高效判断元素是否属于指定集合的向量化方法

Python解释器执行流程是怎样的_源码到字节码过程

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：实时流式传输 PyAudio 音频到 Web 页面的完整实现指南下一篇：Python代码性能优化思路_性能瓶颈定位

作者最新文章

MySQL 间隙锁原理与使用场景

2026-03-08 11:35

潜水员戴夫员工推荐潜水员戴夫最佳员工配置指南

2026-03-08 11:37

Linuxgrub启动异常_grub修复与引导恢复

2026-03-08 11:41

SQL函数调用优化_用户自定义函数性能问题

2026-03-08 11:45

交易猫卖家知道买家手机号吗交易猫隐私保护说明

2026-03-08 11:52

Linux定时任务漂移_cron时间漂移分析

2026-03-08 11:57

Adobe怎么翻译成中文 Adobe界面与文档翻译说明

2026-03-08 12:14

Linux yum 源配置与修复方法

2026-03-08 12:55

SQL 表级权限与列级权限使用技巧

2026-03-08 14:17

Python定时器实现方案_多种定时方式对比

2026-03-08 14:25

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

335

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

223

2025.10.31

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

138

2026.02.12

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

253

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

1069

2024.03.01

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

846

2023.08.22

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板