基于URL的搜索词短语聚类：高效内存实现方案

心靈之曲

发布时间：2026-01-25 21:36:21

483人浏览过

来源于php中文网

原创

基于URL的搜索词短语聚类：高效内存实现方案

本文介绍如何对具有共同url的搜索词短语进行低内存开销的聚类，避免递归和全量数组加载，通过php生成器（yield）与流式交集计算实现可扩展的分组逻辑。

在搜索日志分析或SEO语义分组场景中，常需将共享多个目标URL的查询短语归为同一语义簇（例如“wardrobe in the bedroom”“white wardrobe in the bedroom”因共现于同一组落地页而属于同一主题）。原始实现采用递归+全量数组拷贝+array_intersect_key，导致内存随数据规模呈平方级增长——尤其当$words含数千项、每项URL列表达数百时，极易触发OOM。

核心优化思路：放弃“一次性加载+递归分割”，转向“流式遍历+增量分组”。具体包括：

用生成器替代递归调用：避免每次递归复制整个 $words 数组；
自定义轻量交集迭代器：不构建完整交集数组，仅计数满足阈值的公共URL数量；
按需分组，原地索引管理：使用 id 作为键组织结果，避免嵌套数组深度拷贝。

以下是重构后的内存友好型实现：

function countCommonUrls(array $urlsA, array $urlsB, int $threshold = 3): bool {
    $count = 0;
    // 使用键查找加速（假设URL为字符串且唯一）
    $setB = array_flip($urlsB); // O(n) 构建哈希映射，后续O(1)查重
    foreach ($urlsA as $url) {
        if (isset($setB[$url])) {
            $count++;
            if ($count >= $threshold) {
                return true;
            }
        }
    }
    return false;
}

function clusterByUrls(array $words, int $minCommonUrls = 3): array {
    $groups = [];
    $processed = []; // 记录已分配ID，避免重复处理

    for ($i = 0; $i < count($words); $i++) {
        if (isset($processed[$words[$i]['id']])) {
            continue;
        }

        $current = $words[$i];
        $groupId = $current['id'];
        $groups[$groupId] = [$current['word']];

        // 向后扫描，避免重复比较（i < j）
        for ($j = $i + 1; $j < count($words); $j++) {
            $candidate = $words[$j];
            if (isset($processed[$candidate['id']])) {
                continue;
            }

            if (countCommonUrls($current['urls'], $candidate['urls'], $minCommonUrls)) {
                $groups[$groupId][] = $candidate['word'];
                $processed[$candidate['id']] = true;
            }
        }

        $processed[$current['id']] = true;
    }

    return $groups;
}

✅ 关键优势：

DeepSider

浏览器AI侧边栏对话插件，集成多个AI大模型

下载

时间复杂度从 O(n²×m)（m为平均URL数）优化为 O(n² + n×m)，空间复杂度稳定为 O(n + m)；
无递归调用栈，无中间数组拷贝；
array_flip 构建URL哈希表一次，复用所有后续比对；
支持动态调整 minCommonUrls 阈值（如设为2可扩大召回，设为5可提升精确率）。

⚠️ 注意事项：

若数据量超10万级，建议结合数据库（如MySQL 8.0+ JSON_CONTAINS 或 PostgreSQL && 数组交集）或图数据库（Neo4j建 URL↔Query 二分图，用连通分量算法）；
生产环境应增加输入校验（如检查 urls 是否为非空数组、id 唯一性）；
可进一步封装为迭代器（yield 返回每个group），实现真正流式输出，彻底消除结果数组内存占用。

该方案兼顾可读性与工程鲁棒性，是中小规模语义聚类任务的高性价比落地选择。

MySQL 中字符串字段的数值比较陷阱与正确处理方案

MySQL 中字符串字段数值比较失效的根源与解决方案

宝塔面板下的phpMyAdmin无法访问？修复宝塔面板数据库管理工具

宝塔面板下如何配置MySQL的查询缓存以减少磁盘负载？

宝塔面板下如何手动修改MySQL的max_connections最大连接数？

相关标签:

mysql php word js json seo 栈 ai 内存占用 mysql 封装递归栈算法 postgresql 数据库 neo4j 重构 SEO

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何优化 WooCommerce 价格显示以减少 DOM 元素数量下一篇：将带格式的货币字符串安全转换为整数（单位：分）的完整解析与最佳实践

作者最新文章

Maven 多模块项目中按 Profile 动态构建子集模块的正确实践

2026-03-15 15:56

河马剧场短剧在线浏览入口在哪

2026-03-15 16:00

Java 控制台输出日文颜文字（Kaomoji）乱码问题的完整解决方案

2026-03-15 16:00

TypeScript ESM 导入中省略文件扩展名的正确配置方案

2026-03-15 16:02

如何在 Go 中正确处理 HTTP 超时错误并准确获取响应状态码

2026-03-15 16:52

如何在 Java 中正确编写空值检查以避免 @Nonnull 赋值警告

2026-03-15 16:58

Python 中安全高效地解析并验证字典键值对的自定义条件表达式

2026-03-15 17:01

实现 Circle 类的 add 方法：基于面积叠加计算新半径

2026-03-15 17:01

如何让包含多个的长 div 自动换行

2026-03-15 17:06

如何在 Go 中正确反序列化 JSON 并访问结构体字段

2026-03-15 17:27

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

mysql修改数据表名

MySQL修改数据表：1、首先查看数据库中所有的表，代码为：‘SHOW TABLES；’；2、修改表名，代码为：‘ALTER TABLE 旧表名 RENAME [TO] 新表名；’。php中文网还提供MySQL的相关下载、相关课程等内容，供大家免费下载使用。

686

2023.06.20

MySQL创建存储过程

存储程序可以分为存储过程和函数，MySQL中创建存储过程和函数使用的语句分别为CREATE PROCEDURE和CREATE FUNCTION。使用CALL语句调用存储过程智能用输出变量返回值。函数可以从语句外调用(通过引用函数名)，也能返回标量值。存储过程也可以调用其他存储过程。php中文网还提供MySQL创建存储过程的相关下载、相关课程等内容，供大家免费下载使用。

534

2023.06.21

mongodb和mysql的区别

mongodb和mysql的区别：1、数据模型；2、查询语言；3、扩展性和性能；4、可靠性。本专题为大家提供mongodb和mysql的区别的相关的文章、下载、课程内容，供大家免费下载体验。

287

2023.07.18

mysql密码忘了怎么查看

MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是最好的 RDBMS 应用软件之一。那么mysql密码忘了怎么办呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

520

2023.07.19

mysql创建数据库

MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是最好的 RDBMS 应用软件之一。那么mysql怎么创建数据库呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

267

2023.07.25