讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI聊天问答 Agent智能体 AI文本写作 AI绘画作图 AI设计工具 AI视频创作 AI音频制作 AI办公学习 AI编程开发 AI提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

Python如何对CSV数据做清洗_数据预处理常用操作【教程】

舞姬之光

发布时间：2025-12-18 12:33:08

|

848人浏览过

|

来源于php中文网

原创

Python清洗CSV数据的核心步骤是：用pandas读取并观察数据结构；统一处理缺失值（替换占位符、填充或删除）；标准化日期、数字、文本格式；剔除重复与异常值；最后保存为UTF-8-SIG编码的干净CSV。

python如何对csv数据做清洗_数据预处理常用操作【教程】

Python处理CSV数据清洗和预处理，核心是用pandas读取、识别问题、统一格式、填充或剔除异常，再输出干净数据。不复杂但容易忽略细节。

读取CSV并初步观察数据

先用pandas加载文件，快速查看结构和典型值，判断是否有乱码、列名错位、空行等问题：

pd.read_csv("data.csv", encoding="utf-8") —— 明确指定编码，避免中文乱码；若报错可试encoding="gbk"
df.head(5) 和 df.info() 查看前几行和每列数据类型、非空数量
df.describe(include="all") 快速了解数值与文本列的分布（如唯一值数、常见值）

处理缺失值与空字段

缺失值常见于空单元格、"NULL"、"N/A"、空白字符串等，需统一识别再处理：

用 df.replace({"": pd.NA, "NULL": pd.NA, "N/A": pd.NA}) 把常见占位符转为标准缺失标记
用 df.isna().sum() 查看各列缺失数量
数值列可填均值：df["age"].fillna(df["age"].mean(), inplace=True)
文本列常用众数或固定值（如"未知"）：df["city"].fillna(df["city"].mode()[0], inplace=True)
缺失过多（如>70%）且不可靠的列，考虑直接删：df.drop(columns=["remark"], inplace=True)

统一格式：日期、数字、文本标准化

同一含义的数据常以多种格式混存，需归一化才能后续分析：

云从科技AI开放平台

云从科技AI开放平台

云从AI开放平台

下载

立即学习“Python免费学习笔记（深入）”；

日期列：用 pd.to_datetime(df["date"], errors="coerce") 转换，错误值变NaT；再用 dt.date 或 dt.strftime("%Y-%m-%d") 格式化
金额/数字含逗号或货币符号（如"$1,234.56"）：df["price"].str.replace(r"[^\d.-]", "", regex=True).astype(float)
文本列去首尾空格+统一小写：df["name"] = df["name"].str.strip().str.lower()
分类字段去重规整：df["status"] = df["status"].str.replace(r"\s+", " ", regex=True).str.strip()

剔除重复与明显异常行

重复记录影响统计，明显错误值（如年龄=999、价格=-1）需定位清除：

查重复：df.duplicated().sum()；删重复（保留首次）：df.drop_duplicates(inplace=True)
按业务逻辑设合理范围，例如年龄在0–120之间：df = df[(df["age"] >= 0) & (df["age"]
用箱线图法识别数值离群点（可选）：Q1 = df["score"].quantile(0.25); Q3 = df["score"].quantile(0.75); IQR = Q3 - Q1; df = df[~((df["score"] (Q3 + 1.5*IQR)))]

基本上就这些。清洗不是一步到位，建议每步后用 df.info() 和抽样检查验证效果。保存清洗后数据用 df.to_csv("cleaned.csv", index=False, encoding="utf-8-sig")（加-sig让Excel能正常打开中文）。

相关文章

Excel 中按行合并单元格文本的完整指南：从公式到 Python 实现

如何在 Excel 中高效合并多行文本为单个句子

Excel中多行文本合并为单句的完整指南

Excel中多行文本合并为单句的三种高效方法

Python写Excel文件_openpyxl实战示例

相关标签:

excel python 编码中文乱码 csv 数据清洗币 pandas 数据类型 Float NULL date include 字符串数据结构 Regex excel

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python构建时间序列预测系统的滑动窗口建模策略讲解【教学】下一篇：Python列表与元组区别是什么_使用场景详细说明【教程】

作者最新文章

GitHub 代码复现跑不通怎么办？常见失败原因与排查方法

2026-03-11 12:20

Linux网络不通怎么排查_ping网络诊断方法

2026-03-11 12:44

Linux系统怎么更新_补丁管理方法

2026-03-11 12:46

Linux 内存持续增长_内存泄漏定位

2026-03-11 12:59

LinuxTIME_WAIT过多_端口耗尽治理方案

2026-03-11 13:05

Linux磁盘挂载缓慢_挂载性能问题分析

2026-03-11 13:12

Linux 性能优化误区总结_常见错误解析

2026-03-11 13:54

MySQL 面试常见问题完整汇总

2026-03-11 14:34

网易云游戏入口网易云游戏官方入口地址

2026-03-11 14:46

Linux 多文件日志搜索方法

2026-03-11 15:24

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

更多

Python 时间序列分析与预测

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

80

2025.12.04

Python 数据清洗与预处理实战

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

32

2026.01.31

数据类型有哪几种

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

338

2023.10.31

php数据类型

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

225

2025.10.31

c语言数据类型

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

138

2026.02.12

css中float用法

css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列，用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容，可以阅读本专题下面的文章。

595

2024.04.28

C++中int、float和double的区别

C++中int、float和double的区别

本专题整合了c++中int和double的区别，阅读专题下面的文章了解更多详细内容。

108

2025.10.23

c语言中null和NULL的区别

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

254

2023.09.22

TypeScript类型系统进阶与大型前端项目实践

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

1

2026.03.13

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

Excel 教程

Excel 教程

共162课时 | 21.2万人学习

2小时学会Python玩转Excel，实现高效率办公自动化

2小时学会Python玩转Excel，实现高效率办公自动化

共15课时 | 1.4万人学习

成为PHP架构师-自制PHP框架

成为PHP架构师-自制PHP框架

共28课时 | 2.6万人学习

最新文章

更多

Django自定义过滤器怎么写_模板中|符号调用的文本处理函数

Python如何画动态图_Pyecharts实现网页交互式时间轴数据动态可视化

Flask前后端分离怎么做_仅作API服务器与Vue前端跨域联调

Python怎么换安装盘_C盘空间不足迁移Python环境方法

Python怎么处理多分类_OvO一对一与OvR一对多二分类转化多分类策略

Python Tkinter界面怎么定时刷新_after()方法实现倒计时器与周期性更新UI数据

ANTLR4 PL/SQL 解析器在 Python 中的谓词语法适配指南

Python怎么返回JSON数据_JsonResponse与jsonify序列化

Python如何配置Docker环境_Docker部署Python基础应用容器

如何根据首行值动态删除 Pandas DataFrame 的列

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部