怎么抓取表格数据_PHP抓取网页表格数据方法【指南】

看不見的法師

发布时间：2026-02-09 12:14:02

801人浏览过

来源于php中文网

原创

最稳方式是file_get_contents()配合DOMDocument解析表格，因其容错性强、支持乱码处理、能准确提取textContent，且避免正则匹配嵌套table或JS渲染导致的崩溃。

怎么抓取表格数据_php抓取网页表格数据方法【指南】

用 `file_get_contents()` + `DOMDocument` 解析表格最稳

直接用 file_get_contents() 拿到 HTML，再丢给 DOMDocument 解析，是 PHP 抓取网页表格最可靠的方式。正则匹配

标签容易崩——只要页面里有嵌套

、JS 动态插入、或属性换行，就大概率漏数据或报错。
实操建议：


libxml_use_internal_errors(true) 必加，否则 HTML 不规范（比如缺少闭合标签）会直接抛 Warning 中断脚本
加载后调用 $dom->loadHTML(mb_convert_encoding($html, 'HTML-UTF8', 'UTF-8'))，避免中文乱码

用 $dom->getElementsByTagName('table') 获取所有表格，再按索引或 class 属性定位目标表，比如 $table = $tables->item(0)

遍历

→

或

时，用 $cell->textContent 取值，别用 nodeValue ——它会把内部标签（如）也当文本拼进去

遇到 JavaScript 渲染的表格怎么办

如果 file_get_contents() 拿到的 HTML 里没有

，说明表格由 JS 动态生成。PHP 原生不执行 JS，硬抓没用。
可行路径只有两个：
立即学习“PHP免费学习笔记（深入）”；

查网页 Network 面板，看表格数据是否来自独立 API 接口（比如 /api/data?year=2024），直接请求那个 URL，通常返回 JSON，用 json_decode() 解析更干净
真要渲染页面，得换工具：用 headless Chrome 配合 Puppeteer 或 Selenium，PHP 调用其 HTTP 接口（如 chrome-devtools-protocol 封装服务），但部署成本高，仅限必要场景

别试 file_get_contents() 加延时再读——没用，PHP 不跑 JS。


simple_html_dom 能不能用？慎选
这个第三方库写法看着简单，比如 $html->find('table tr')，但实际问题不少：

对 malformed HTML 容错差，某些页面会卡死或返回空数组

内存占用比原生 DOMDocument 高一倍以上，抓大表格（千行+）容易超限
不支持命名空间，遇到 XHTML 或含 xmlns 的表格，find() 可能完全失效
已多年未维护，PHP 8.1+ 下部分方法有弃用警告

除非项目已重度依赖它且无法重构，否则新代码优先用 DOMDocument。

表格跨行（rowspan）、跨列（colspan）怎么对齐
原始 HTML 表格结构 ≠ 二维数组。遇到 rowspan="2"，同一单元格会在两行中“出现”，但 DOM 解析后只有一份节点。手动还原逻辑必须补位。
关键点：

遍历前初始化二维数组 $grid = []，并记录当前行号 $row 和列号 $col

对每个

，先跳过已被上一行 rowspan 占用的位置（查 $grid[$row][$col] 是否已设值）

取 $cell->getAttribute('rowspan') 和 $cell->getAttribute('colspan')，循环向右/向下填空值，确保后续行的列索引正确

别依赖 getElementsByTagName('td') 的顺序——它按文档流返回，不是按表格视觉位置

这步逻辑看似琐碎，但漏掉就会导致整张表列错位，而且错误往往只在特定表格中暴露，上线后才踩坑。

Apache如何配置PHP支持_在Apache中启用PHP模块的方法【教程】

PHP如何复制整个文件夹_PHP复制文件夹及所有文件【教程】

PHP静态跨文件调用注意啥_PHP多文件下静态成员的引入规则【汇总】

PHP怎么输出arraylist_接口返回arraylist怎么调试看结果【介绍】

如何为每个表单行独立分组多文件上传数据

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

php javascript java html js json node 工具中文乱码内存占用 lsp json chrome xhtml 命名空间封装循环接口 class JS dom table td tr th http 重构

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：php版本控制怎么管理插件主题_管理插件主题版本】下一篇：暂无

作者最新文章

百度AI平台怎样集成到网页表单_百度AI平台网页集成方法【嵌入】

2026-02-06 16:58

百词斩app例句发音听不清咋调_百词斩app发音设置优化技巧【技巧】

2026-02-06 17:08

RokidMax怎样开运动防抖_RokidMax开运动防抖方法【稳定】

2026-02-06 17:15

中国人事考试网打印入口 2026二级造价工程师资格考试准考证系统入口

2026-02-06 17:21

TT浏览器怎么查看历史访问_TT浏览器查看历史访问方法【追溯】

2026-02-06 17:28

DeepSeek怎样快速定位关键信息_DeepSeek关键信息定位法【速找】

2026-02-06 17:32

芒果浏览器怎样同步多设备数据_芒果浏览器同步多设备数据方法【衔接】

2026-02-06 17:35

智学网学历信息核验官网_智学网正规登录入口链接

2026-02-06 17:35

常用平台哪有AI写作入口_平台寻AI写作入口汇总【集锦】

2026-02-06 17:48

猿辅导在线主页入口猿辅导网页版官方访问

2026-02-06 17:52

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

433

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

543

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

315

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

chrome什么意思

chrome是浏览器的意思，由Google开发的网络浏览器，它在2008年首次发布，并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容，供大家免费下载体验。

922

2023.08.11

chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

768

2023.11.06

硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍：1、IDE接口是一种并行接口，主要用于连接硬盘和光驱等设备，它主要有两种类型：ATA和ATAPI，IDE接口已经逐渐被SATA接口；2、SATA接口是一种串行接口，相较于IDE接口，它具有更高的传输速度、更低的功耗和更小的体积；3、SCSI接口等等。

1344

2023.10.19