0

0

如何从外部网页(尤其是 SPA 应用)中提取全部商品 URL

聖光之護

聖光之護

发布时间:2026-01-27 11:22:02

|

283人浏览过

|

来源于php中文网

原创

如何从外部网页(尤其是 SPA 应用)中提取全部商品 URL

本文介绍如何通过解析 json-ld 结构化数据精准提取现代电商页面(如 coop、migros 等 angular/react 渲染的单页应用)中隐藏的真实商品链接,避开 dom 动态渲染和 cors 限制问题。

现代电商平台(如 Coop.chMigros.ch)普遍采用前端框架(Angular、React)进行服务端渲染(SSR)或客户端动态加载,导致传统 DOM 解析(如 getElementsByTagName('a'))无法捕获全部链接——关键商品 URL 往往不直接存在于 标签中,而是嵌入在

✅ 推荐方案:定位并解析 JSON-LD 中的 ItemList 数据

以 Coop 页面为例,其商品列表实际由 ItemList 类型的 JSON-LD 提供,其中每个 itemListElement 包含一个 url 字段,即目标商品页地址。该数据块通常位于 HTML 源码中类似如下位置:


此时,使用 DOMDocument 解析整个 HTML 效率低且易受格式干扰;更可靠的方式是字符串级精准提取

阿里妈妈·创意中心
阿里妈妈·创意中心

阿里妈妈营销创意中心

下载

? PHP 实现示例(含辅助函数)

 $url,
    CURLOPT_RETURNTRANSFER => true,
    CURLOPT_FOLLOWLOCATION => true,
    CURLOPT_USERAGENT => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    CURLOPT_TIMEOUT => 10,
]);
$html = curl_exec($ch);
curl_close($ch);

if (!$html) {
    die("Failed to fetch page");
}

// 精准提取 JSON-LD 内容
$json_ld = str_after('', $html);
$json_ld = str_after('', $json_ld);

$data = json_decode($json_ld, flags: JSON_THROW_ON_ERROR);
if (!isset($data->itemListElement)) {
    die("No itemListElement found in JSON-LD");
}

// 输出所有商品 URL
foreach ($data->itemListElement as $item) {
    if (isset($item->url) && filter_var($item->url, FILTER_VALIDATE_URL)) {
        echo htmlspecialchars($item->url) . "
\n"; } }
? 为什么不用 DOMDocument? JSON-LD 块常因缩进不规范、注释混杂或嵌套引号导致 DOMDocument::loadHTML() 解析失败或丢失节点;而字符串切片(str_after/str_before)轻量、稳定、无依赖,特别适合提取已知锚点的嵌入式 JSON。

⚠️ 注意事项与最佳实践

  • User-Agent 与请求头:多数现代网站会拦截无 User-Agent 的请求。务必使用合理浏览器标识,并考虑添加 Accept, Accept-Language 等头部。
  • 反爬策略:Coop/Migros 可能启用 Cloudflare 或 bot 检测。若返回 403/503,应改用带完整浏览器指纹的无头浏览器(如 Puppeteer + PHP 调用),但需权衡复杂度与必要性。
  • Migros 特殊情况:Migros 页面虽为 Angular 应用,但其商品数据常通过 XHR 加载(如 /api/offers)。可借助浏览器 DevTools → Network → Filter fetch/XHR 找到真实 API 端点,直接调用(需处理认证 token 或 referer)。
  • Robots.txt 与法律合规:始终检查 https://www.php.cn/link/959d83db456f69a7ca5a7d683cc52f89/robots.txt 和 https://www.php.cn/link/73cdac09836439688e0c3626d39d3ef3/robots.txt,遵守 Crawl-Delay 和禁止抓取路径;仅用于个人学习或授权用途,避免高频请求。
  • 错误处理不可省略:生产环境必须加入 try-catch、HTTP 状态码校验、JSON 解析异常捕获及空值判断。

✅ 总结

当面对 SPA 构建的电商页面时,“找 标签”已过时。优先搜索 JSON-LD、OpenGraph、Schema.org 结构化数据——它们是搜索引擎和开发者为机器可读性预留的“黄金入口”。掌握字符串级精准提取技巧,配合合理 HTTP 客户端配置,即可高效、稳定地获取全部目标 URL,无需依赖前端渲染或复杂自动化工具

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

418

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

535

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

311

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

77

2025.09.10

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6141

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

816

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1065

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1338

2024.03.01

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 9.7万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.2万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号