Python清洗CSV数据的核心步骤是:用pandas读取并观察数据结构;统一处理缺失值(替换占位符、填充或删除);标准化日期、数字、文本格式;剔除重复与异常值;最后保存为UTF-8-SIG编码的干净CSV。

Python处理CSV数据清洗和预处理,核心是用pandas读取、识别问题、统一格式、填充或剔除异常,再输出干净数据。不复杂但容易忽略细节。
读取CSV并初步观察数据
先用pandas加载文件,快速查看结构和典型值,判断是否有乱码、列名错位、空行等问题:
- pd.read_csv("data.csv", encoding="utf-8") —— 明确指定编码,避免中文乱码;若报错可试encoding="gbk"
- df.head(5) 和 df.info() 查看前几行和每列数据类型、非空数量
- df.describe(include="all") 快速了解数值与文本列的分布(如唯一值数、常见值)
处理缺失值与空字段
缺失值常见于空单元格、"NULL"、"N/A"、空白字符串等,需统一识别再处理:
- 用 df.replace({"": pd.NA, "NULL": pd.NA, "N/A": pd.NA}) 把常见占位符转为标准缺失标记
- 用 df.isna().sum() 查看各列缺失数量
- 数值列可填均值:df["age"].fillna(df["age"].mean(), inplace=True)
- 文本列常用众数或固定值(如"未知"):df["city"].fillna(df["city"].mode()[0], inplace=True)
- 缺失过多(如>70%)且不可靠的列,考虑直接删:df.drop(columns=["remark"], inplace=True)
统一格式:日期、数字、文本标准化
同一含义的数据常以多种格式混存,需归一化才能后续分析:
动态WEB网站中的PHP和MySQL详细反映实际程序的需求,仔细地探讨外部数据的验证(例如信用卡卡号的格式)、用户登录以及如何使用模板建立网页的标准外观。动态WEB网站中的PHP和MySQL的内容不仅仅是这些。书中还提到如何串联JavaScript与PHP让用户操作时更快、更方便。还有正确处理用户输入错误的方法,让网站看起来更专业。另外还引入大量来自PEAR外挂函数库的强大功能,对常用的、强大的包
立即学习“Python免费学习笔记(深入)”;
- 日期列:用 pd.to_datetime(df["date"], errors="coerce") 转换,错误值变NaT;再用 dt.date 或 dt.strftime("%Y-%m-%d") 格式化
- 金额/数字含逗号或货币符号(如"$1,234.56"):df["price"].str.replace(r"[^\d.-]", "", regex=True).astype(float)
- 文本列去首尾空格+统一小写:df["name"] = df["name"].str.strip().str.lower()
- 分类字段去重规整:df["status"] = df["status"].str.replace(r"\s+", " ", regex=True).str.strip()
剔除重复与明显异常行
重复记录影响统计,明显错误值(如年龄=999、价格=-1)需定位清除:
- 查重复:df.duplicated().sum();删重复(保留首次):df.drop_duplicates(inplace=True)
- 按业务逻辑设合理范围,例如年龄在0–120之间:df = df[(df["age"] >= 0) & (df["age"]
- 用箱线图法识别数值离群点(可选):Q1 = df["score"].quantile(0.25); Q3 = df["score"].quantile(0.75); IQR = Q3 - Q1; df = df[~((df["score"] (Q3 + 1.5*IQR)))]
基本上就这些。清洗不是一步到位,建议每步后用 df.info() 和抽样检查验证效果。保存清洗后数据用 df.to_csv("cleaned.csv", index=False, encoding="utf-8-sig")(加-sig让Excel能正常打开中文)。









