0

0

使用 HtmlAgilityPack 精确解析 HTML 文档中的特定表格

心靈之曲

心靈之曲

发布时间:2025-10-23 10:09:01

|

771人浏览过

|

来源于php中文网

原创

使用 HtmlAgilityPack 精确解析 HTML 文档中的特定表格

本教程详细介绍了如何使用 c# 中的 htmlagilitypack 库,从包含多个表格的 html 文档中准确选择并解析特定的 html 表格。文章纠正了常见的 xpath 使用误区,强调了在选定节点上下文中执行查询的重要性,并提供了完整的代码示例,帮助开发者高效、精确地提取所需数据。

在 Web 数据抓取和 HTML 解析任务中,HtmlAgilityPack 是 .NET 开发者常用的强大工具。它能够将 HTML 文档解析成 DOM 结构,并通过 XPath 或 CSS 选择器方便地查询和操作节点。然而,当 HTML 文档包含多个结构相似的元素(例如多个 <table> 标签)时,准确地选择并处理其中一个特定元素,而非全部,就显得尤为重要。

理解 XPath 查询上下文

一个常见的错误是,在成功选择了一个父节点(例如一个特定的表格)之后,后续的子节点查询仍然在整个文档的上下文中执行。例如,当您使用 doc.DocumentNode.SelectSingleNode("//table[1]") 选择了第一个表格后,如果接着使用 doc.DocumentNode.SelectNodes("//tr") 来查找行,那么它会返回文档中 所有 的 <tr> 元素,而不仅仅是第一个表格中的行。

要解决这个问题,关键在于理解 XPath 查询的上下文。一旦您选择了一个特定的 HtmlNode,后续针对该节点内部元素的查询应该以该节点为上下文进行。

准确选择和解析特定表格

以下是一个示例 HTML 结构,我们将以此为例来演示如何分别解析第一个和第二个表格:

立即学习前端免费学习笔记(深入)”;

AI改图神器
AI改图神器

AI万能图片编辑器,一键抠图,去水印,智能图片美化,照片转漫画,照片变活转视频,图片无损放大,一键背景虚化,位图智能转矢量图

下载
<html>
    <body>
        <p>This is where first table starts</p>
        <table>
            <tr>
                <th>head1</th>
                <th>head2</th>
            </tr>
            <tr>
                <td>data1_1</td>
                <td>data1_2</td>
            </tr>
            <tr>
                <td>data1_3</td>
                <td>data1_4</td>
            </tr>
        </table>
        <p>This is where second table starts</p>
        <table>
            <tr>
                <th>headA</th>
                <th>headB</th>
            </tr>
            <tr>
                <td>data2_A</td>
                <td>data2_B</td>
            </tr>
            <tr>
                <td>data2_C</td>
                <td>data2_D</td>
            </tr>
        </table>
    </body>
</html>

我们将使用 HtmlAgilityPack 来加载这个 HTML,并根据需要选择不同的表格。

1. 解析第一个表格

要解析第一个表格,我们首先需要使用 XPath //table[1] 准确地选中它。然后,所有后续的行 (<tr>) 和单元格 (<td>) 查询都应该在 这个选定的表格节点 的上下文中进行。

using HtmlAgilityPack;
using System.Data;
using System.Linq; // For .Skip()

public class TableParser
{
    public DataTable ParseFirstTable(string htmlContent)
    {
        HtmlDocument doc = new HtmlDocument();
        doc.LoadHtml(htmlContent);

        DataTable dt = new DataTable();
        // 假设我们知道表格结构,预先定义列
        dt.Columns.Add("ColumnA", typeof(string));
        dt.Columns.Add("ColumnB", typeof(string));

        // 选中第一个表格节点
        HtmlNode table = doc.DocumentNode.SelectSingleNode("//table[1]");

        if (table != null)
        {
            // 在选定的 'table' 节点内部查找所有的 'tr' 节点
            // 注意:这里使用 "tr" 或 ".//tr" 而不是 "//tr"
            // "tr" 表示直接子元素,".//tr" 表示当前节点下的任意后代元素
            // 考虑到表格结构,"tr" 通常是更精确和高效的选择
            var rows = table.SelectNodes("tr"); 

            if (rows != null)
            {
                // 跳过表头行(如果有的话),从第二行开始处理数据
                foreach (var row in rows.Skip(1)) // 假设第一行是表头
                {
                    var cells = row.SelectNodes("td"); // 在当前行 'row' 内部查找 'td' 节点
                    if (cells != null && cells.Count >= 2) // 确保有足够的单元格
                    {
                        string colA = cells[0].InnerText.Trim();
                        string colB = cells[1].InnerText.Trim();
                        dt.Rows.Add(colA, colB);
                    }
                }
            }
        }
        return dt;
    }
}

2. 解析第二个表格

解析第二个表格的方法与第一个表格类似,只需将 XPath 表达式改为 //table[2] 即可。

using HtmlAgilityPack;
using System.Data;
using System.Linq;

public class TableParser
{
    // ... (ParseFirstTable 方法省略) ...

    public DataTable ParseSecondTable(string htmlContent)
    {
        HtmlDocument doc = new HtmlDocument();
        doc.LoadHtml(htmlContent);

        DataTable dt = new DataTable();
        // 假设我们知道表格结构,预先定义列
        dt.Columns.Add("ColumnX", typeof(string));
        dt.Columns.Add("ColumnY", typeof(string));

        // 选中第二个表格节点
        HtmlNode table = doc.DocumentNode.SelectSingleNode("//table[2]");

        if (table != null)
        {
            var rows = table.SelectNodes("tr");

            if (rows != null)
            {
                foreach (var row in rows.Skip(1)) // 假设第一行是表头
                {
                    var cells = row.SelectNodes("td");
                    if (cells != null && cells.Count >= 2)
                    {
                        string colX = cells[0].InnerText.Trim();
                        string colY = cells[1].InnerText.Trim();
                        dt.Rows.Add(colX, colY);
                    }
                }
            }
        }
        return dt;
    }
}

关键注意事项

  1. XPath 上下文: 始终记住,SelectSingleNode 或 SelectNodes 方法如果在 HtmlDocument.DocumentNode 上调用,则会在整个文档中搜索;如果在特定的 HtmlNode 上调用,则会在该节点的子树中搜索。
    • //element:在文档的任何位置查找 element。
    • element:查找当前节点的直接子 element。
    • .//element:在当前节点的所有后代中查找 element。
  2. 索引从 1 开始: XPath 索引是基于 1 的,所以 [1] 表示第一个元素,[2] 表示第二个元素。
  3. 健壮性: 在实际应用中,HTML 结构可能不总是完美的。在访问 SelectNodes 或 SelectSingleNode 的结果之前,务必进行空值检查(if (node != null)),以避免 NullReferenceException。
  4. 表头处理: 示例代码使用 rows.Skip(1) 来跳过表头行。如果表头使用 <th> 标签,并且您想单独处理或忽略它们,可以更精确地筛选 <tr> 元素,例如只选择包含 <td> 的行。
  5. 更精确的定位: 如果表格有 id 或 class 属性,使用这些属性进行定位会更加稳定和精确,例如 //table[@id='myTableId'] 或 //table[@class='data-table']。

通过遵循这些原则,您可以有效地利用 HtmlAgilityPack 从复杂的 HTML 文档中提取所需的数据,并确保解析过程的准确性和健壮性。理解 XPath 上下文是掌握 HtmlAgilityPack 进行高级数据抓取的基石。

相关文章

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

255

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

1153

2024.03.01

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

847

2023.08.22

class在c语言中的意思
class在c语言中的意思

在C语言中,"class" 是一个关键字,用于定义一个类。想了解更多class的相关内容,可以阅读本专题下面的文章。

931

2024.01.03

python中class的含义
python中class的含义

本专题整合了python中class的相关内容,阅读专题下面的文章了解更多详细内容。

32

2025.12.06

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

4388

2024.08.14

Nginx跨平台安装实操指南:Windows、macOS与Linux环境快速搭建
Nginx跨平台安装实操指南:Windows、macOS与Linux环境快速搭建

本指南详解Nginx在Windows、macOS及Linux系统的安装全流程。涵盖官方包解压、Homebrew一键部署、APT/YUM源配置及Docker容器化方案。无论新手或开发者,均可快速搭建运行环境,掌握跨平台核心指令,为后续配置与调优奠定坚实基础。

9

2026.03.16

chatgpt使用指南
chatgpt使用指南

本专题整合了chatgpt使用教程、新手使用说明等等相关内容,阅读专题下面的文章了解更多详细内容。

22

2026.03.16

chatgpt官网入口地址合集
chatgpt官网入口地址合集

本专题整合了chatgpt官网入口地址、使用教程等内容,阅读专题下面的文章了解更多详细内容。

52

2026.03.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 1.0万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.7万人学习

CSS教程
CSS教程

共754课时 | 44.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号