如何用 PHP 提取网页的纯文本渲染内容（去除 HTML 标签与格式）

碧海醫心

发布时间：2026-03-14 16:19:01

423人浏览过

来源于php中文网

原创

如何用 PHP 提取网页的纯文本渲染内容（去除 HTML 标签与格式）

本文介绍如何在 PHP 中准确获取网页“用户实际看到的文本内容”，即模拟浏览器渲染后的纯文本，而非原始 HTML 源码；核心方案是借助终端文本浏览器 Lynx 的 -dump 功能，并通过 proc_open() 安全调用。

本文介绍如何在 php 中准确获取网页“用户实际看到的文本内容”，即模拟浏览器渲染后的纯文本，而非原始 html 源码；核心方案是借助终端文本浏览器 lynx 的 `-dump` 功能，并通过 `proc_open()` 安全调用。

在 Web 抓取或内容分析场景中，开发者常需提取目标页面“人眼可见的文本”——例如正文段落、标题、列表项等，而忽略 <script>、<style>、注释、属性值、图片替代文本（除非显式显示）、以及所有 HTML 标签结构。此时，仅靠 file_get_contents() 或 cURL 获取原始 HTML 并用 strip_tags() 粗暴清洗是不可靠的：它无法处理 JavaScript 渲染内容、CSS display: none 隐藏文本、<noscript> 降级内容，更无法还原浏览器真实的 DOM 文本流（如换行合并、内联样式影响的可视性等）。

真正贴近“渲染后文本”的轻量级解决方案是使用成熟的终端浏览器 Lynx。Lynx 是一个字符界面的网页浏览器，其 -dump 模式会加载 HTML、执行基础解析（包括 CSS 可见性判断和简单脚本忽略逻辑），然后输出线性化、可读的纯文本——这正是用户在无图形界面下“阅读网页”所见的内容。

✅ 正确做法：在 PHP 中调用 Lynx 命令行工具
确保服务器已安装 Lynx（Linux/macOS 通常可通过 apt install lynx 或 brew install lynx 安装；Windows 需下载二进制并配置 PATH）。然后使用 proc_open() 安全执行命令（相比 exec() 更可控，支持错误流捕获）：

function fetchRenderedText(string $url, int $timeout = 30): string
{
    $descriptorspec = [
        0 => ['pipe', 'r'], // stdin（不使用）
        1 => ['pipe', 'w'], // stdout → 获取结果
        2 => ['pipe', 'w'], // stderr → 捕获错误
    ];

    $cmd = sprintf('timeout %d lynx -dump -nolist -nonumbers -stdin 2>/dev/null', $timeout);
    $process = proc_open($cmd, $descriptorspec, $pipes, null, null, ['binary' => true]);

    if (!is_resource($process)) {
        throw new RuntimeException('Failed to start Lynx process');
    }

    // 向 Lynx stdin 写入 HTML（可选：先用 cURL 获取再传入；或直接传 URL）
    fwrite($pipes[0], '');
    fclose($pipes[0]);

    // 读取 stdout（渲染后文本）
    $output = stream_get_contents($pipes[1]);
    fclose($pipes[1]);

    // 读取 stderr（用于调试）
    $error = stream_get_contents($pipes[2]);
    fclose($pipes[2]);

    $returnCode = proc_close($process);

    if ($returnCode !== 0) {
        throw new RuntimeException("Lynx failed (code {$returnCode}): {$error}");
    }

    return trim($output);
}

// 使用示例
try {
    $text = fetchRenderedText('https://example.com');
    echo $text; // 输出干净、换行合理的纯文本
} catch (Exception $e) {
    error_log('Fetch failed: ' . $e->getMessage());
}

⚠️ 关键注意事项：

PixVerse

PixVerse是一款强大的AI视频生成工具，可以轻松地将多种输入转化为令人惊叹的视频。

下载

安全性第一：切勿将用户输入的 URL 直接拼入 shell 命令（防命令注入）。上述示例采用 -stdin 模式，避免 URL 解析风险；若需传 URL，应严格校验协议（仅 http:// / https://）并使用 escapeshellarg()。
超时控制：务必设置 timeout（Linux/macOS）或 gtimeout（macOS Homebrew），防止 Lynx 因网络卡顿无限阻塞。
编码兼容：Lynx 默认按页面声明的 charset 解析。若目标页无正确 <meta charset>，可在命令中加 -assume_charset=utf-8 强制指定。
JavaScript 限制：Lynx 不执行 JavaScript，因此动态渲染内容（如 SPA 页面）无法被捕获。如需 JS 支持，应升级为 Puppeteer（Node.js）或 Playwright + PHP 进程通信方案。
替代方案对比：
- strip_tags() + html_entity_decode()：速度快但语义错误多（隐藏元素仍保留、<title> 被误删、<pre> 格式丢失）；
- DOMDocument + XPath：需手动遍历可见节点，实现复杂且易漏判 CSS 隐藏逻辑；
- Lynx：开箱即用、符合真实渲染逻辑、成熟稳定，是服务端纯文本提取的黄金标准。

总结：当需求明确指向“用户所见即所得的文本”时，Lynx -dump 是 PHP 生态中最务实、最可靠的选择。它不追求完整浏览器功能，却精准覆盖了绝大多数静态/半静态网站的文本提取需求。合理封装、严格校验、配合超时与错误处理，即可构建健壮的生产级文本提取模块。

立即学习“PHP免费学习笔记（深入）”；

宝塔面板下数据库导入SQL文件提示“文件过大”该如何调整？

宝塔面板下PHP项目报错504 Gateway Timeout？调整宝塔面板执行超时

如何在宝塔面板中一键清理PHP运行产生的Session垃圾？

如何在宝塔面板中通过WebHook实现代码更新后自动清理缓存？

宝塔面板面板更新后出现乱码该如何通过命令行强制回退版本？

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

curl_exec

curl_exec函数是PHP cURL函数列表中的一种，它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例，这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE，或者在失败时返回FALSE。

455

2023.06.14

linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容，可以阅读本专题下面的文章。

183

2023.10.30

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

531

2023.06.20

js获取当前时间

JS全称JavaScript，是一种具有函数优先的轻量级，解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言，主要用于Web，常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

576

2023.07.28

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js是什么意思

JS是JavaScript的缩写，它是一种广泛应用于网页开发的脚本语言。JavaScript是一种解释性的、基于对象和事件驱动的编程语言，通常用于为网页增加交互性和动态性。它可以在网页上实现复杂的功能和效果，如表单验证、页面元素操作、动画效果、数据交互等。

6281

2023.08.17

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

493

2023.09.01