0

0

SQL批量数据清洗怎么做_真实案例解析强化复杂查询思维【技巧】

舞夢輝影

舞夢輝影

发布时间:2025-12-16 20:23:03

|

980人浏览过

|

来源于php中文网

原创

SQL批量数据清洗应遵循“查中改、改中查”思维,先用SELECT精准定位脏数据,再分步原子化UPDATE,结合跨表校验与留痕验证,确保可追溯、可回滚、可复用。

sql批量数据清洗怎么做_真实案例解析强化复杂查询思维【技巧】

SQL批量数据清洗不是写一堆UPDATE,而是用“查中改、改中查”的思维,把清洗变成可验证、可回滚、可复用的查询逻辑。核心是:先用SELECT精准定位问题数据,再套上UPDATE/DELETE/INSERT,最后用COUNT或抽样校验。

一、识别脏数据:别猜,用聚合+条件组合筛

真实场景:用户表user_info里有12万条记录,电话字段phone出现空格、短横线、中文括号、长度异常(如11位以外)、重复手机号等问题。

不建议逐条看,直接用以下SELECT快速画像:

  • 查空格和符号残留:SELECT id, phone FROM user_info WHERE phone REGEXP '[[:space:]\\-\\(\\)\\u4e00-\\u9fa5]';
  • 查长度异常:SELECT phone, LENGTH(phone) len FROM user_info WHERE LENGTH(TRIM(phone)) NOT IN (11, 0);
  • 查疑似重复(去噪后):SELECT REPLACE(REPLACE(REPLACE(TRIM(phone), ' ', ''), '-', ''), ')', '') clean_p, COUNT(*) FROM user_info GROUP BY clean_p HAVING COUNT(*) > 1;

二、清洗动作要“原子化”:分步UPDATE,每步只做一件事

错误做法:一条UPDATE干掉所有问题(易出错、难调试、无法回滚)。正确做法是拆解为语义清晰的独立步骤:

  • 第一步:统一去空格和常见符号
    UPDATE user_info SET phone = TRIM(REPLACE(REPLACE(REPLACE(phone, ' ', ''), '-', ''), ')', ''));
  • 第二步:补全11位(仅对纯数字且长度为10的加'1'前缀)
    UPDATE user_info SET phone = CONCAT('1', phone) WHERE phone REGEXP '^[0-9]{10}$';
  • 第三步:清空非法值(非11位纯数字)
    UPDATE user_info SET phone = NULL WHERE phone NOT REGEXP '^1[0-9]{10}$';

每执行一步,都跟一句SELECT COUNT(*) FROM user_info WHERE phone IS NULL;或抽样检查,确认影响范围可控。

Meku
Meku

AI应用和网页开发工具

下载

三、关联清洗:跨表校验+补全,避免“闭门造车”

案例:订单表orders里user_id存在但对应user_info中已删除(逻辑删除标记is_deleted=1),导致统计口径混乱。

  • 先查出“孤儿订单”:
    SELECT o.id, o.user_id FROM orders o LEFT JOIN user_info u ON o.user_id = u.id AND u.is_deleted = 0 WHERE u.id IS NULL;
  • 再安全处理(比如打标签而非直接删):
    UPDATE orders SET status = 'invalid_user' WHERE id IN (SELECT id FROM (SELECT o.id FROM orders o LEFT JOIN user_info u ON o.user_id = u.id AND u.is_deleted = 0 WHERE u.id IS NULL) t);

注意子查询套一层(SELECT ...),规避MySQL“不能在UPDATE中直接SELECT同一张表”的限制。

四、留痕与验证:清洗不是终点,而是新数据质量的起点

上线前必须做三件事:

  • 备份原始字段(加临时列存旧值):
    ALTER TABLE user_info ADD COLUMN phone_raw VARCHAR(20); UPDATE user_info SET phone_raw = phone;
  • 记录清洗日志(哪怕只是简单INSERT):
    INSERT INTO clean_log(table_name, action, affected_rows, run_time) VALUES ('user_info', 'phone_normalize', 118320, NOW());
  • 跑一致性校验SQL(例如清洗前后总记录数、有效手机号占比):
    SELECT 'before' phase, COUNT(*) total, COUNT(phone) valid FROM user_info_old UNION ALL SELECT 'after', COUNT(*), COUNT(phone) FROM user_info;

基本上就这些。复杂查询思维的本质,是把“我要修什么”转化成“我能用哪几个条件锁定它”,再用SQL一层层逼近答案——清洗不是体力活,是逻辑推演。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

707

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

327

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

349

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1201

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

360

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

798

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

581

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

422

2024.04.29

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MySQL 教程
MySQL 教程

共48课时 | 1.9万人学习

MySQL 初学入门(mosh老师)
MySQL 初学入门(mosh老师)

共3课时 | 0.3万人学习

简单聊聊mysql8与网络通信
简单聊聊mysql8与网络通信

共1课时 | 812人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号