如何从外部网页（尤其是 SPA 应用）中提取全部商品 URL

聖光之護

发布时间：2026-01-27 11:22:02

543人浏览过

来源于php中文网

原创

如何从外部网页（尤其是 SPA 应用）中提取全部商品 URL

本文介绍如何通过解析 json-ld 结构化数据精准提取现代电商页面（如 coop、migros 等 angular/react 渲染的单页应用）中隐藏的真实商品链接，避开 dom 动态渲染和 cors 限制问题。

现代电商平台（如 Coop.ch 和 Migros.ch）普遍采用前端框架（Angular、React）进行服务端渲染（SSR）或客户端动态加载，导致传统 DOM 解析（如 getElementsByTagName('a')）无法捕获全部链接——关键商品 URL 往往不直接存在于 zuojiankuohaophpcna> 标签中，而是嵌入在 <script type="application/ld+json"> 的结构化数据中，遵循 JSON-LD 规范。

✅ 推荐方案：定位并解析 JSON-LD 中的 ItemList 数据

以 Coop 页面为例，其商品列表实际由 ItemList 类型的 JSON-LD 提供，其中每个 itemListElement 包含一个 url 字段，即目标商品页地址。该数据块通常位于 HTML 源码中类似如下位置：

<!-- ItemList schema -->
<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "ItemList",
  "itemListElement": [
    {
      "@type": "ListItem",
      "position": 1,
      "url": "https://www.php.cn/link/73cdac09836439688e0c3626d39d3ef3:443/lebensmittel/fleisch-fisch/geraeucherter-fisch/labeyrie-lachsfilet-geraeuchert/p/4922140"
    },
    ...
  ]
}
</script>

此时，使用 DOMDocument 解析整个 HTML 效率低且易受格式干扰；更可靠的方式是字符串级精准提取：

听脑AI

听脑AI语音，一款专注于音视频内容的工作学习助手，为用户提供便捷的音视频内容记录、整理与分析功能。

下载

? PHP 实现示例（含辅助函数）

<?php
function str_after($needle, $haystack) {
    $pos = mb_strpos($haystack, $needle);
    return ($pos !== false) ? mb_substr($haystack, $pos + mb_strlen($needle)) : '';
}

function str_before($needle, $haystack) {
    $pos = mb_strpos($haystack, $needle);
    return ($pos !== false) ? mb_substr($haystack, 0, $pos) : '';
}

// 目标 URL（注意：需设置 User-Agent 防止被拒）
$url = 'https://www.php.cn/link/73cdac09836439688e0c3626d39d3ef3/de/aktionen/wochenaktionen/aktionen-fleisch-fisch/c/m_1380?q=' . urlencode(':relevance') . '&sort=specialOffers&pageSize=10000&page=1';

// 使用 cURL 替代 file_get_contents（推荐：可设 header、超时、重试）
$ch = curl_init();
curl_setopt_array($ch, [
    CURLOPT_URL => $url,
    CURLOPT_RETURNTRANSFER => true,
    CURLOPT_FOLLOWLOCATION => true,
    CURLOPT_USERAGENT => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    CURLOPT_TIMEOUT => 10,
]);
$html = curl_exec($ch);
curl_close($ch);

if (!$html) {
    die("Failed to fetch page");
}

// 精准提取 JSON-LD 内容
$json_ld = str_after('<!-- ItemList schema -->', $html);
$json_ld = str_after('<script type="application/ld+json">', $json_ld);
$json_ld = str_before('</script>', $json_ld);

$data = json_decode($json_ld, flags: JSON_THROW_ON_ERROR);
if (!isset($data->itemListElement)) {
    die("No itemListElement found in JSON-LD");
}

// 输出所有商品 URL
foreach ($data->itemListElement as $item) {
    if (isset($item->url) && filter_var($item->url, FILTER_VALIDATE_URL)) {
        echo htmlspecialchars($item->url) . "<br>\n";
    }
}

? 为什么不用 DOMDocument？ JSON-LD 块常因缩进不规范、注释混杂或嵌套引号导致 DOMDocument::loadHTML() 解析失败或丢失节点；而字符串切片（str_after/str_before）轻量、稳定、无依赖，特别适合提取已知锚点的嵌入式 JSON。

⚠️ 注意事项与最佳实践

User-Agent 与请求头：多数现代网站会拦截无 User-Agent 的请求。务必使用合理浏览器标识，并考虑添加 Accept, Accept-Language 等头部。
反爬策略：Coop/Migros 可能启用 Cloudflare 或 bot 检测。若返回 403/503，应改用带完整浏览器指纹的无头浏览器（如 Puppeteer + PHP 调用），但需权衡复杂度与必要性。
Migros 特殊情况：Migros 页面虽为 Angular 应用，但其商品数据常通过 XHR 加载（如 /api/offers）。可借助浏览器 DevTools → Network → Filter fetch/XHR 找到真实 API 端点，直接调用（需处理认证 token 或 referer）。
Robots.txt 与法律合规：始终检查 https://www.php.cn/link/959d83db456f69a7ca5a7d683cc52f89/robots.txt 和 https://www.php.cn/link/73cdac09836439688e0c3626d39d3ef3/robots.txt，遵守 Crawl-Delay 和禁止抓取路径；仅用于个人学习或授权用途，避免高频请求。
错误处理不可省略：生产环境必须加入 try-catch、HTTP 状态码校验、JSON 解析异常捕获及空值判断。

✅ 总结

当面对 SPA 构建的电商页面时，“找 <a> 标签”已过时。优先搜索 JSON-LD、OpenGraph、Schema.org 结构化数据——它们是搜索引擎和开发者为机器可读性预留的“黄金入口”。掌握字符串级精准提取技巧，配合合理 HTTP 客户端配置，即可高效、稳定地获取全部目标 URL，无需依赖前端渲染或复杂自动化工具。

修复 PHP 跨域配置导致的 403 错误与 JSON 解析失败问题

数据库提交失败常见原因与解决方案：FormData 与 AJAX 的正确配合

数据库提交失败的常见原因与正确处理 FormData 的完整指南

如何正确实现URL缩短服务中的目标网站元数据展示

如何正确实现短链接重定向以确保社交平台抓取目标页面元数据

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：javascript性能优化有哪些关键技巧【教程】下一篇：将对象转换为数组并使用 map 方法的正确方式

作者最新文章

Go 中为何不能直接转换切片类型？深入解析类型转换规则与安全替代方案

2026-03-12 09:23

Vue 中实现多选限制：仅允许勾选 3 项，其余自动禁用（支持反选）

2026-03-12 09:25

OpenGL 3.x 渲染 20K 精灵体（Sprites）性能优化实战指南

2026-03-12 09:26

上海停车app如何进行预约

2026-03-12 09:27

vscode源控件里怎么好多数字

2026-03-12 09:43

Java 中正确解码 Unicode 私用区（PUA）字符的完整指南

2026-03-12 09:46

《生化危机9》MOD让疯狂难度更难被丧尸咬了会感染

2026-03-12 09:47

如何让图片的20%移出网页可视区域实现“半隐式”视觉效果

2026-03-12 10:09

如何在 Go 的 flag 包中为必需的位置参数提供清晰的 Usage 提示

2026-03-12 10:10

如何让图片的20%移出视口实现“半隐式”边缘展示效果

2026-03-12 10:24

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

337

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6654

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

843

2023.09.14