0

0

如何正确抓取动态渲染网页的标题(如AniList)

花韻仙語

花韻仙語

发布时间:2026-03-01 17:57:18

|

358人浏览过

|

来源于php中文网

原创

如何正确抓取动态渲染网页的标题(如AniList)

本文详解为何传统php dom解析无法获取javascript动态更新的页面标题,并提供基于api调用与无头浏览器的两种可靠解决方案,附完整代码示例与实践建议。

本文详解为何传统php dom解析无法获取javascript动态更新的页面标题,并提供基于api调用与无头浏览器的两种可靠解决方案,附完整代码示例与实践建议。

在开发网页信息提取功能时,许多开发者会使用 file_get_contents() + DOMDocument 的方式解析 HTML 并提取

或 Open Graph 标签(如 <meta property="og:title">)。这种方式对静态网站(如早期 MyAnimeList)效果良好,但面对现代前端框架构建的单页应用(SPA),例如 <a href="https://www.php.cn/link/84a98e9bea194d59e442e2be756a2e08" rel="nofollow" target="_blank">AniList</a>,它往往失效——你得到的不是动画实际名称(如 "Pokémon"),而是站点默认标题 "AniList"。<p>根本原因在于:<strong>AniList 使用 Vue.js 在客户端动态注入内容并修改 <title> 和 og:title 标签。当你用 PHP 的 file_get_contents_curl() 获取原始 HTML 时,拿到的是未执行 JS 的“骨架页面”,此时 尚未被 Vue 渲染引擎填充(或仍为占位值),而 data-vue-meta="true" 正是 Vue Meta 插件的典型标记,印证了该行为。

✅ 正确方案一:优先调用官方 API(推荐)

AniList 提供稳定、结构化且无需渲染的 GraphQL API,可精准获取动画元数据:

function getAniListTitleById($animeId) {
    $query = 'query ($id: Int!) { Media(id: $id, type: ANIME) { title { romaji english native } } }';
    $variables = ['id' => (int)$animeId];

    $payload = json_encode(['query' => $query, 'variables' => $variables]);
    $ch = curl_init('https://graphql.anilist.co');
    curl_setopt_array($ch, [
        CURLOPT_RETURNTRANSFER => true,
        CURLOPT_POST => true,
        CURLOPT_POSTFIELDS => $payload,
        CURLOPT_HTTPHEADER => ['Content-Type: application/json'],
    ]);

    $response = curl_exec($ch);
    curl_close($ch);

    $data = json_decode($response, true);
    if (isset($data['data']['Media']['title']['romaji'])) {
        return $data['data']['Media']['title']['romaji']; // e.g. "Pocket Monsters"
    }
    return $data['data']['Media']['title']['english'] ?? 'Unknown Title';
}

// 示例:https://www.php.cn/link/84a98e9bea194d59e442e2be756a2e08/anime/527/Pocket-Monsters/
echo getAniListTitleById(527); // 输出:Pocket Monsters

✅ 优势:响应快、稳定性高、免反爬、支持批量查询、字段语义清晰(含多语言标题)。
⚠️ 注意:需解析 URL 中的 ID(如 /anime/527/ → 527),可借助正则 #\/anime\/(\d+)\/# 提取。

✅ 正确方案二:服务端渲染(SSR)/无头浏览器

若必须从任意 URL(非 AniList)提取最终渲染后标题,需模拟真实浏览器环境。推荐使用轻量级无头方案,如 Puppeteer(Node.js)或其 PHP 封装(如 spatie/browsershot):

动态WEB网站中的PHP和MySQL:直观的QuickPro指南第2版
动态WEB网站中的PHP和MySQL:直观的QuickPro指南第2版

动态WEB网站中的PHP和MySQL详细反映实际程序的需求,仔细地探讨外部数据的验证(例如信用卡卡号的格式)、用户登录以及如何使用模板建立网页的标准外观。动态WEB网站中的PHP和MySQL的内容不仅仅是这些。书中还提到如何串联JavaScript与PHP让用户操作时更快、更方便。还有正确处理用户输入错误的方法,让网站看起来更专业。另外还引入大量来自PEAR外挂函数库的强大功能,对常用的、强大的包

下载
composer require spatie/browsershot
use Spatie\Browsershot\Browsershot;

function getTitleFromRenderedPage($url) {
    try {
        // 截图非必需,此处仅等待 JS 执行完成并提取 document.title
        $title = Browsershot::url($url)
            ->setOption('waitUntil', 'networkidle0')
            ->evaluate("document.title");
        return trim($title);
    } catch (\Exception $e) {
        return 'Failed to render page: ' . $e->getMessage();
    }
}

echo getTitleFromRenderedPage('https://www.php.cn/link/84a98e9bea194d59e442e2be756a2e08/anime/527/Pocket-Monsters/');
// 输出:Pokémon —— 真实浏览器最终呈现的标题

⚠️ 注意事项:

  • 需部署 Chrome/Chromium 环境,增加服务器资源开销;
  • 响应延迟显著高于 API 方案(通常 1–3 秒);
  • 频繁请求可能触发风控,建议添加合理限速与 User-Agent。

❌ 为什么原代码失效?关键总结

环节 原代码行为 实际问题
数据获取 file_get_contents_curl() 仅拉取初始 HTML 未执行 JS,og:title 为空或为默认值
DOM 解析 DOMDocument::loadHTML() 解析静态结构 无法感知运行时 DOM 变更
判断逻辑 依赖 property="og:title" 属性存在即取值 属性虽存在,但 content 值尚未被 JS 填充

? 核心结论:对于任何依赖客户端 JavaScript 渲染关键元信息的网站(如 AniList、React/Vue/Angular 应用),纯服务端 HTML 解析注定失败。务必转向 API 优先策略;若无 API,则必须引入浏览器环境。

选择方案时,请始终遵循:有 API → 用 API;无 API → 用无头浏览器;绝不依赖静态 HTML 抓取动态标题。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python GraphQL API 开发实战
Python GraphQL API 开发实战

本专题系统讲解 Python 在 GraphQL API 开发中的实际应用,涵盖 GraphQL 基础概念、Schema 设计、Query 与 Mutation 实现、权限控制、分页与性能优化,以及与现有 REST 服务和数据库的整合方式。通过完整示例,帮助学习者掌握 使用 Python 构建高扩展性、前后端协作友好的 GraphQL 接口服务,适用于中大型应用与复杂数据查询场景。

22

2026.01.21

chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

1010

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

812

2023.11.06

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

528

2023.06.20

js获取当前时间
js获取当前时间

JS全称JavaScript,是一种具有函数优先的轻量级,解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言,主要用于Web,常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

494

2023.07.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

658

2023.08.03

js是什么意思
js是什么意思

JS是JavaScript的缩写,它是一种广泛应用于网页开发的脚本语言。JavaScript是一种解释性的、基于对象和事件驱动的编程语言,通常用于为网页增加交互性和动态性。它可以在网页上实现复杂的功能和效果,如表单验证、页面元素操作、动画效果、数据交互等。

5858

2023.08.17

js删除节点的方法
js删除节点的方法

js删除节点的方法有:1、removeChild()方法,用于从父节点中移除指定的子节点,它需要两个参数,第一个参数是要删除的子节点,第二个参数是父节点;2、parentNode.removeChild()方法,可以直接通过父节点调用来删除子节点;3、remove()方法,可以直接删除节点,而无需指定父节点;4、innerHTML属性,用于删除节点的内容。

492

2023.09.01

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

24

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号