最稳妥的起点是用array_count_values()统计频次再过滤,它不依赖键名、保持插入顺序、天然忽略非标量值;实操中先统计再用array_filter()筛选次数≥2的项,需注意回调返回布尔值。

用 array_count_values() 统计频次再过滤
直接统计每个值出现次数,是最稳妥的起点。它不依赖键名、不改变原始顺序(PHP 7.4+ 保持插入顺序),且天然忽略非标量值(比如数组或对象会报 Warning: array_count_values(): Can only count string and integer values)。
实操建议:
立即学习“PHP免费学习笔记(深入)”;
- 先用
array_count_values($arr)得到频次数组,键是原数组的值,值是出现次数 - 再用
array_filter()筛出次数 ≥ 2 的项,注意回调函数里要返回布尔值,不是直接返回次数 - 若只要重复值本身(去重后的一组),用
array_keys(array_filter(...));若要保留所有重复元素(含多次出现),得遍历原数组比对频次
$arr = [1, 2, 2, 3, 3, 3, 'a', 'a']; $counts = array_count_values($arr); $duplicates = array_keys(array_filter($counts, fn($n) => $n >= 2)); // [2, 3, 'a']
用 array_unique() 配合两次 array_diff() 快速提取重复项
适合只要“哪些值重复了”,不要求知道重复几次。原理是:原数组减去去重后数组,剩下的是首次出现以外的重复元素;再对其去重,就得到重复值集合。
实操建议:
立即学习“PHP免费学习笔记(深入)”;
- 必须用
array_values()重置键名,否则array_diff()可能因键类型/顺序不一致漏判 - 该方法对字符串和数字安全,但对浮点数比较脆弱(
0.1 + 0.2 !== 0.3可能导致误判) - 性能略低于
array_count_values(),因为涉及三次数组遍历
$arr = [1, 2, 2, 3, 3, 3]; $unique = array_unique($arr); $duplicates = array_values(array_unique(array_diff($arr, $unique))); // [2, 3]
遍历手动计数时,注意 isset() 比 array_key_exists() 更快且安全
自己写循环统计时,用 isset($freq[$v]) 判断键是否存在,比 array_key_exists() 快,也避免对 null 值的歧义判断(isset(null) 是 false,而 array_key_exists() 仍返回 true)。
实操建议:
立即学习“PHP免费学习笔记(深入)”;
- 初始化空数组
$freq = [],然后foreach ($arr as $v) { $freq[$v] = isset($freq[$v]) ? $freq[$v] + 1 : 1; } - 如果原数组含
null、0、false这类“falsy”值,且需精确区分,才考虑array_key_exists() - 别用
in_array()查重——时间复杂度 O(n²),大数据量下明显卡顿
关联数组或含非标量值?得先序列化再统计
array_count_values() 不支持数组、对象、资源等,直接报错。此时必须把不可计数的值转成可哈希的字符串。
实操建议:
立即学习“PHP免费学习笔记(深入)”;
- 用
serialize($item)最通用,但注意浮点精度和对象私有属性可能影响一致性 - 若只处理二维关联数组,可用
json_encode($item, JSON_FORCE_OBJECT | JSON_UNESCAPED_UNICODE),更轻量且可读 - 序列化后记得用
unserialize()或json_decode()还原,否则你拿到的是字符串而不是原结构 - 这种方案性能下降明显,万级数据以上建议换数据库或 Redis 做去重
array_count_values() + array_filter() 就够了。真正容易被忽略的是:原始数组里混着 0、false、'' 时,用 empty() 或松散比较(==)做判断会出错——务必用严格比较(===)或 is_int()/is_string() 显式校验类型。











