0

0

Jsoup 中精准定位并提取 HTML 元素文本的完整指南

聖光之護

聖光之護

发布时间:2026-02-20 19:12:10

|

349人浏览过

|

来源于php中文网

原创

Jsoup 中精准定位并提取 HTML 元素文本的完整指南

本文详解如何使用 Jsoup 的 CSS 选择器语法高效定位嵌套 HTML 元素(如带 data-test-component 属性的 及其子 ),并安全提取目标文本(如“Сегодня в 13:52”),避免空指针与索引越界。

本文详解如何使用 jsoup 的 css 选择器语法高效定位嵌套 html 元素(如带 data-test-component 属性的 `

  • ` 及其子 `
    `),并安全提取目标文本(如“Сегодня в 13:52”),避免空指针与索引越界。

    在 Web 抓取与 HTML 解析场景中,Jsoup 是 Java 生态中最常用、最直观的库之一。但初学者常因过度依赖 DOM 树遍历(如 child() + 索引)而写出脆弱、难维护的代码。实际上,Jsoup 原生支持强大且语义清晰的 CSS 选择器,可直接表达“获取 ProductStats 列表中最后一组描述项的值”,无需手动计算子节点索引。

    以目标 HTML 片段为例:

    <li data-test-component="ProductStats" class="sc-qVkRw dDEgow">
      <dl data-test-component="DescriptionList" class="sc-ejxegM hEIIuR">
        <dt>В избранном</dt>
        <dd>1</dd>
        <dt>Просмотры</dt>
        <dd>2</dd>
        <dt>Размещено</dt>
        <dd>Сегодня в 13:52</dd>
      </dl>
    </li>

    要提取 "Сегодня в 13:52",本质是:定位到 data-test-component="ProductStats" 的

  • → 进入其内部
    → 找到最后一个
    元素 → 获取其文本内容
  • ✅ 推荐写法(简洁、健壮、可读性强):

    立即学习前端免费学习笔记(深入)”;

    狸谱App
    狸谱App

    AI壁纸漫画梗图,年轻人的抽象创作社区

    下载
    Document doc = Jsoup.parse(htmlString); // 或 Jsoup.connect(url).get()
    
    // 一步定位:li 下的 dl 中的最后一个 dd
    Element targetDD = doc.selectFirst("li[data-test-component=ProductStats] dl dd:last-of-type");
    if (targetDD != null) {
        String postedTime = targetDD.text().trim();
        System.out.println(postedTime); // 输出:Сегодня в 13:52
    } else {
        System.err.println("目标元素未找到,请检查HTML结构或选择器");
    }

    ? 关键选择器说明:

    • li[data-test-component=ProductStats]:精确匹配具有该 data-* 属性的
    • dl:其直接或后代
      (此处为直接子元素);
    • dd:last-of-type:选取
      内最后一个
      元素(CSS 标准伪类,Jsoup 完全支持);
    • selectFirst(...):安全返回首个匹配元素(避免 Elements.get(0) 的空指针风险)。

    ⚠️ 注意事项:

    • 避免硬编码索引(如 child(5)):HTML 结构微调即导致逻辑断裂;
    • select(...) 返回 Elements(可能为空),务必判空;优先用 selectFirst() + null 检查,比 size()>0 && get(0) 更简洁;
    • 若需提取特定
      对应的
      (如“Размещено”右侧的值),可用相邻兄弟选择器:
      Element dt = doc.selectFirst("dt:contains(Размещено)");
      String value = dt != null ? dt.nextElementSibling().text().trim() : null;
    • Jsoup 默认不区分大小写匹配标签名和属性名,但 data-test-component 值需严格匹配(含大小写)。

    ? 总结:掌握 selectFirst() + 组合 CSS 选择器(属性选择器、伪类、后代/子代关系符),是 Jsoup 高效开发的核心能力。它让解析逻辑与 HTML 语义对齐,大幅提升代码可读性、可测试性与长期可维护性。

  • 相关文章

    HTML速学教程(入门课程)
    HTML速学教程(入门课程)

    HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

    下载

    本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

    热门AI工具

    更多
    DeepSeek
    DeepSeek

    幻方量化公司旗下的开源大模型平台

    豆包大模型
    豆包大模型

    字节跳动自主研发的一系列大型语言模型

    通义千问
    通义千问

    阿里巴巴推出的全能AI助手

    腾讯元宝
    腾讯元宝

    腾讯混元平台推出的AI助手

    文心一言
    文心一言

    文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

    讯飞写作
    讯飞写作

    基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

    即梦AI
    即梦AI

    一站式AI创作平台,免费AI图片和视频生成。

    ChatGPT
    ChatGPT

    最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

    相关专题

    更多
    c语言中null和NULL的区别
    c语言中null和NULL的区别

    c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

    246

    2023.09.22

    java中null的用法
    java中null的用法

    在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

    806

    2024.03.01

    空指针异常处理
    空指针异常处理

    本专题整合了空指针异常解决方法,阅读专题下面的文章了解更多详细内容。

    23

    2025.11.16

    DOM是什么意思
    DOM是什么意思

    dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

    3797

    2024.08.14

    li是什么元素
    li是什么元素

    li是HTML标记语言中的一个元素,用于创建列表。li代表列表项,它是ul或ol的子元素,li标签的作用是定义列表中的每个项目。本专题为大家li元素相关的各种文章、以及下载和课程。

    429

    2023.08.03

    pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
    pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

    本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

    796

    2026.02.13

    微博网页版主页入口与登录指南_官方网页端快速访问方法
    微博网页版主页入口与登录指南_官方网页端快速访问方法

    本专题系统整理微博网页版官方入口及网页端登录方式,涵盖首页直达地址、账号登录流程与常见访问问题说明,帮助用户快速找到微博官网主页,实现便捷、安全的网页端登录与内容浏览体验。

    272

    2026.02.13

    Flutter跨平台开发与状态管理实战
    Flutter跨平台开发与状态管理实战

    本专题围绕Flutter框架展开,系统讲解跨平台UI构建原理与状态管理方案。内容涵盖Widget生命周期、路由管理、Provider与Bloc状态管理模式、网络请求封装及性能优化技巧。通过实战项目演示,帮助开发者构建流畅、可维护的跨平台移动应用。

    143

    2026.02.13

    TypeScript工程化开发与Vite构建优化实践
    TypeScript工程化开发与Vite构建优化实践

    本专题面向前端开发者,深入讲解 TypeScript 类型系统与大型项目结构设计方法,并结合 Vite 构建工具优化前端工程化流程。内容包括模块化设计、类型声明管理、代码分割、热更新原理以及构建性能调优。通过完整项目示例,帮助开发者提升代码可维护性与开发效率。

    25

    2026.02.13

    热门下载

    更多
    网站特效
    /
    网站源码
    /
    网站素材
    /
    前端模板

    精品课程

    更多
    相关推荐
    /
    热门推荐
    /
    最新课程
    Bootstrap 5教程
    Bootstrap 5教程

    共46课时 | 3.4万人学习

    AngularJS教程
    AngularJS教程

    共24课时 | 3.7万人学习

    CSS教程
    CSS教程

    共754课时 | 34万人学习

    关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
    php中文网:公益在线php培训,帮助PHP学习者快速成长!
    关注服务号 技术交流群
    PHP中文网订阅号
    每天精选资源文章推送

    Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号