0

0

如何使用 Jsoup 精准定位并提取 HTML 中的指定文本元素

聖光之護

聖光之護

发布时间:2026-02-20 22:49:11

|

286人浏览过

|

来源于php中文网

原创

如何使用 Jsoup 精准定位并提取 HTML 中的指定文本元素

本文详解 jsoup 中基于 css 选择器和 dom 遍历两种主流方式提取目标文本(如“Сегодня в 13:52”),涵盖选择器语法、链式查询、边界校验及常见陷阱,助开发者高效、健壮地解析结构化 html。

本文详解 jsoup 中基于 css 选择器和 dom 遍历两种主流方式提取目标文本(如“Сегодня в 13:52”),涵盖选择器语法、链式查询、边界校验及常见陷阱,助开发者高效、健壮地解析结构化 html

在 Web 抓取与 HTML 解析场景中,Jsoup 是 Java 生态中最常用、最可靠的库之一。其核心优势在于简洁的 CSS 选择器语法和直观的 DOM 操作 API。针对用户提供的 HTML 片段——一个包含多组

/
列表嵌套在特定 data-test-component="ProductStats" 的
  • 中,目标是精准获取最后一项
    的文本内容 "Сегодня в 13:52",本文提供两种推荐实践方案。

    ✅ 方案一:纯 CSS 选择器(推荐 —— 简洁、可读性强)

    Jsoup 支持标准 CSS 选择器,无需 XPath 即可实现精准定位。观察结构可知:

    • 外层
    • 具有属性 data-test-component="ProductStats"
    • 内层
      是其唯一子元素
    • 目标
      最后一个
      元素
      (注意:不是最后一个子节点,因为
      交替出现)

    因此,可组合使用属性选择器 + 子元素选择器 + 伪类:

    Document doc = Jsoup.parse(htmlString); // htmlString 即原始 HTML 字符串
    
    // 方式1:直接定位到目标 <dd> —— 推荐
    Elements targetDd = doc.select("li[data-test-component=ProductStats] dl dd:last-of-type");
    if (!targetDd.isEmpty()) {
        String text = targetDd.last().text(); // 安全取最后一个(防多个匹配)
        System.out.println(text); // 输出:Сегодня в 13:52
    }

    ? 补充说明:dd:last-of-type 匹配

    麦艺画板(Max.art)
    麦艺画板(Max.art)

    AI工业设计平台,专注于汽车设计,线稿、渲染、3D建模全流程覆盖

    下载
    内最后一个
    元素(语义准确);若需更严格限定为「倒数第一个
    」,也可用 dd:nth-last-of-type(1)。

    立即学习前端免费学习笔记(深入)”;

    ✅ 方案二:分步 DOM 遍历(适合动态/复杂结构)

    当选择器难以一次性表达逻辑(如需根据前序

  • 文本判断对应
    ),或需复用中间节点时,可采用显式遍历:
    Element li = doc.selectFirst("li[data-test-component=ProductStats]");
    if (li != null) {
        Element dl = li.selectFirst("dl[data-test-component=DescriptionList]");
        if (dl != null) {
            // 获取所有 <dd> 元素并取最后一个
            Elements dds = dl.select("dd");
            if (!dds.isEmpty()) {
                String value = dds.get(dds.size() - 1).text();
                System.out.println(value); // Сегодня в 13:52
            }
        }
    }

    该方式逻辑清晰、易于调试,且天然支持空值防护(通过 selectFirst() 和判空)。

    ⚠️ 关键注意事项

    • 避免 child() 索引硬编码:原文答案中使用 li.child(0).child(...) 依赖 DOM 树形结构顺序,极易因 HTML 微小变动(如注释、空格、新增子节点)而失效。应优先使用语义化选择器(如 select("dl"))。
    • 始终校验非空:select() 返回 Elements(可能为空列表),selectFirst() 返回 Element(可能为 null),务必判空再调用 .text() 或 .child(),否则触发 NullPointerException。
    • 区分 text() 与 ownText():text() 获取含子元素文本的合并结果;ownText() 仅获取当前元素自身文本(无子节点内容),本例中二者等效,但需按需选用。
    • 编码与字符集:确保 Jsoup.parse() 时指定正确 charset(如 Jsoup.parse(html, "UTF-8")),避免俄文等 Unicode 字符乱码。

    ✅ 总结

    提取 "Сегодня в 13:52" 的最佳实践是:
    doc.select("li[data-test-component=ProductStats] dl dd:last-of-type").first().text()
    ——一行代码完成选择、安全取值与文本提取,兼具性能、可读性与鲁棒性。掌握 CSS 选择器组合技巧(属性、类型、伪类),远胜于脆弱的索引遍历。在真实项目中,建议将选择器封装为常量,并配合单元测试验证 HTML 结构变更时的兼容性。

    相关文章

    HTML速学教程(入门课程)
    HTML速学教程(入门课程)

    HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

    下载

    本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

    热门AI工具

    更多
    DeepSeek
    DeepSeek

    幻方量化公司旗下的开源大模型平台

    豆包大模型
    豆包大模型

    字节跳动自主研发的一系列大型语言模型

    通义千问
    通义千问

    阿里巴巴推出的全能AI助手

    腾讯元宝
    腾讯元宝

    腾讯混元平台推出的AI助手

    文心一言
    文心一言

    文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

    讯飞写作
    讯飞写作

    基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

    即梦AI
    即梦AI

    一站式AI创作平台,免费AI图片和视频生成。

    ChatGPT
    ChatGPT

    最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

    相关专题

    更多
    c语言中null和NULL的区别
    c语言中null和NULL的区别

    c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

    246

    2023.09.22

    java中null的用法
    java中null的用法

    在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

    806

    2024.03.01

    java基础知识汇总
    java基础知识汇总

    java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

    1555

    2023.10.24

    DOM是什么意思
    DOM是什么意思

    dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

    3802

    2024.08.14

    li是什么元素
    li是什么元素

    li是HTML标记语言中的一个元素,用于创建列表。li代表列表项,它是ul或ol的子元素,li标签的作用是定义列表中的每个项目。本专题为大家li元素相关的各种文章、以及下载和课程。

    429

    2023.08.03

    pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
    pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

    本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

    796

    2026.02.13

    微博网页版主页入口与登录指南_官方网页端快速访问方法
    微博网页版主页入口与登录指南_官方网页端快速访问方法

    本专题系统整理微博网页版官方入口及网页端登录方式,涵盖首页直达地址、账号登录流程与常见访问问题说明,帮助用户快速找到微博官网主页,实现便捷、安全的网页端登录与内容浏览体验。

    272

    2026.02.13

    Flutter跨平台开发与状态管理实战
    Flutter跨平台开发与状态管理实战

    本专题围绕Flutter框架展开,系统讲解跨平台UI构建原理与状态管理方案。内容涵盖Widget生命周期、路由管理、Provider与Bloc状态管理模式、网络请求封装及性能优化技巧。通过实战项目演示,帮助开发者构建流畅、可维护的跨平台移动应用。

    143

    2026.02.13

    TypeScript工程化开发与Vite构建优化实践
    TypeScript工程化开发与Vite构建优化实践

    本专题面向前端开发者,深入讲解 TypeScript 类型系统与大型项目结构设计方法,并结合 Vite 构建工具优化前端工程化流程。内容包括模块化设计、类型声明管理、代码分割、热更新原理以及构建性能调优。通过完整项目示例,帮助开发者提升代码可维护性与开发效率。

    25

    2026.02.13

    热门下载

    更多
    网站特效
    /
    网站源码
    /
    网站素材
    /
    前端模板

    精品课程

    更多
    相关推荐
    /
    热门推荐
    /
    最新课程
    Bootstrap 5教程
    Bootstrap 5教程

    共46课时 | 3.4万人学习

    AngularJS教程
    AngularJS教程

    共24课时 | 3.7万人学习

    CSS教程
    CSS教程

    共754课时 | 34万人学习

    关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
    php中文网:公益在线php培训,帮助PHP学习者快速成长!
    关注服务号 技术交流群
    PHP中文网订阅号
    每天精选资源文章推送

    Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号