php数组函数是数据清洗的核心工具:array_filter过滤脏数据,array_map批量转换格式,array_unique去重并需array_values重排索引,array_merge_recursive与array_replace_recursive分别用于递归合并与覆盖补全。

PHP 数组函数是数据清洗过程中最常用、最高效的工具之一,尤其在处理表单提交、CSV 导入、API 响应等原始数据时,能快速完成去重、过滤、转换、结构重组等关键操作。
用 array_filter() 清理无效和脏数据
原始数据常含空值、零值、空白字符串或非法类型,array_filter() 可按自定义逻辑精准剔除。默认行为会移除所有“falsy”值(如 null、false、0、""),但需注意:若需保留 0 或 "0",必须显式传入回调函数并明确判断。
- 清除空字符串和 null,但保留 0 和 "0":
array_filter($data, function($v) { return $v !== '' && $v !== null; }) - 过滤非数字邮箱字段:
array_filter($users, function($u) { return filter_var($u['email'], FILTER_VALIDATE_EMAIL); })
用 array_map() 统一格式与类型转换
清洗常需批量标准化,比如 trim 空格、转小写、强制转整型、HTML 实体解码等。array_map() 支持匿名函数或内置函数,一行代码即可作用于整个数组。
- 批量清理字符串首尾空格并转小写:
array_map('trim', array_map('strtolower', $names)) - 将字符串数字转为整型,无效则设为 0:
array_map(function($v) { return is_numeric($v) ? (int)$v : 0; }, $scores) - 对多维数组的某字段统一处理(配合
array_column+array_combine):$cleaned = array_map(function($row) { return ['id' => (int)$row['id'], 'name' => trim($row['name'])]; }, $raw_data);
用 array_unique() + array_values() 去重并重排索引
用户重复提交、日志合并或爬虫采集易产生重复记录。array_unique() 默认比较值,支持 SORT_REGULAR(默认)、SORT_STRING 等模式;但返回结果保留原始键名,需搭配 array_values() 重置为连续数字索引,避免后续 foreach 出现跳号或 JSON 编码成对象。
立即学习“PHP免费学习笔记(深入)”;
- 去除二维数组中完全相同的记录(需先序列化):
$unique = array_values(array_unique(array_map('serialize', $records)));<br>$clean = array_map('unserialize', $unique); - 按指定字段去重(如 email 唯一):
利用临时键名去重:$seen = []; $filtered = []; foreach ($users as $u) { if (!isset($seen[$u['email']])) { $seen[$u['email']] = true; $filtered[] = $u; } }
用 array_merge_recursive() 和 array_replace_recursive() 合并与覆盖配置/补全数据
清洗中常需将默认规则与用户输入合并,或把多个来源的数据按结构融合。array_merge_recursive() 会递归合并同名键(不覆盖,而是形成数组),适合收集多组标签或权限;array_replace_recursive() 则递归覆盖,更适合补全缺失字段(如用默认地址填充空的 user profile)。
- 补全用户资料(仅覆盖空值,不破坏已有有效数据):
$full_profile = array_replace_recursive($defaults, array_filter($input, function($v) { return $v !== null && $v !== ''; })); - 合并多批次导入的订单项(同 product_id 的 quantity 累加):
先用array_column($items, null, 'product_id')建立索引,再遍历累加,比盲目merge_recursive更可控。
掌握这几个函数的边界行为和组合用法,就能应对 80% 以上的常规数据清洗场景。关键是理解每个函数的默认行为、键名处理逻辑和类型隐式转换风险——不复杂但容易忽略。











