0

0

使用Jsoup与JavaScript从复杂HTML结构中提取特定文本

聖光之護

聖光之護

发布时间:2025-10-30 11:54:01

|

1104人浏览过

|

来源于php中文网

原创

使用Jsoup与JavaScript从复杂HTML结构中提取特定文本

本文提供了一份全面的指南,旨在教授如何高效地从复杂的html文档中提取特定文本。我们将重点介绍两种主要方法:利用java/kotlin中的jsoup库进行服务器端解析,以及使用javascript进行客户端数据提取。通过实际代码示例,您将学习如何精准定位并获取如uuid等关键数据,并了解在不同应用场景下的最佳实践和注意事项。

在网页数据抓取或前端数据处理的场景中,从复杂的HTML结构中精准提取特定文本是一项常见且重要的任务。例如,从一个包含大量表格和嵌套标签的HTML片段中,我们可能需要获取某个特定描述(如“name:”)对应的唯一标识符(UUID)。本教程将详细介绍如何通过Java/Kotlin中的Jsoup库和JavaScript来实现这一目标。

Jsoup解决方案:服务器端HTML解析

Jsoup是一个强大的Java库,用于解析HTML文档,提供了一套类似于jQuery的API,可以方便地通过CSS选择器来查找、修改和提取数据。

问题分析

在原始问题中,用户尝试使用 document.select("td:contains(name:)").get(0) 来获取目标文本。这个选择器能够成功定位到包含“name:”文本的

元素。然而,我们的目标是该 元素 相邻的兄弟 元素 中包含的 标签内的文本。直接获取 td:contains(name:) 的结果,只会得到整个 元素及其所有子内容,而非我们期望的纯文本值。

精准定位与提取

为了获取与“name:”关联的UUID,我们需要一个更精确的CSS选择器。利用Jsoup强大的选择器功能,我们可以结合“内容包含选择器”(:contains()) 和“相邻兄弟选择器”(+) 来实现。

Kacha
Kacha

KaCha是一款革命性的AI写真工具,用AI技术将照片变成杰作!

下载

立即学习Java免费学习笔记(深入)”;

CSS选择器解释:

  • td:contains(name:): 这个选择器会匹配所有内容中包含“name:”文本的 元素。在我们的HTML结构中,它会选中 name: 所在的那个 。
  • + td: 这是一个相邻兄弟选择器。它会匹配紧跟在前面 元素之后的第一个 兄弟元素。这正是我们目标UUID所在的 。
  • > span: 这是一个子元素选择器。它会匹配前面选中的 元素的直接子 元素。最终,我们成功定位到包含UUID的 标签。

    示例代码 (Java):

    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    
    public class JsoupHtmlExtractor {
    
        public static void main(String[] args) {
            // 模拟HTML内容,实际应用中可能来自网络请求或文件读取
            String htmlContent = """
                    <td>
                     <div>
                      <h3>Id:</h3>
                      <table style="border: none">
                       <tbody>
                        <tr>
                         <td style="border: none"><b>id:</b></td>
                         <td style="border: none"><span style="margin-left: 15px">testuuid1</span></td>
                        </tr>
                        <tr>
                         <td style="border: none"><b>idtype:</b></td>
                         <td style="border: none"><span style="margin-left: 15px">uuid</span></td>
                        </tr>
                        <tr>
                         <td style="border: none"><b>territory:</b></td>
                         <td style="border: none"><span style="margin-left: 15px">GB</span></td>
                        </tr>
                        <tr>
                         <td style="border: none"><b>type:</b></td>
                         <td style="border: none"><span style="margin-left: 15px">cover</span></td>
                        </tr>
                        <tr>
                         <td style="border: none"><b>version:</b></td>
                         <td style="border: none"><span style="margin-left: 15px">aa3601f8-219a-43e6-be36-0aa49d2f0943</span></td>
                        </tr>
                       </tbody>
                      </table>
                     </div>
                     <div>
                      <h3>File:</h3>
                      <table style="border: none">
                       <tbody>
                        <tr>
                         <td style="border: none"><b>extension:</b></td>
                         <td style="border: none"><span style="margin-left: 15px">jpg</span></td>
                        </tr>
                        <tr>
                         <td style="border: none"><b>md5Checksum:</b></td>
                         <td style="border: none"><span style="margin-left: 15px">f5e1725f067a697805f4af28bef55720</span></td>
                        </tr>
                        <tr>
                         <td style="border: none"><b>mimeType:</b></td>
                         <td style="border: none"><span style="margin-left: 15px">image/jpeg</span></td>
                        </tr>
                        <tr>
                         <td style="border: none"><b>name:</b></td>
                         <td style="border: none"><span style="margin-left: 15px">cb6a296b-c7ba-4228-b9f2-d6e39947814e</span></td>
                        </tr>
                        <tr>
                         <td style="border: none"><b>path:</b></td>
                         <td style="border: none"><span style="margin-left: 15px"></span></td>
                        </tr>
                       </tbody>
                      </table>
                     </div>
                     <div>
                      <h3>FileInfo:</h3>
                      <table style="border: none">
                       <tbody>
                        <tr>
                         <td style="border: none"><b>created:</b></td>
                         <td style="border: none"><span style="margin-left: 15px">2022-08

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Kotlin协程编程与Spring Boot集成实践
Kotlin协程编程与Spring Boot集成实践

本专题围绕 Kotlin 协程机制展开,深入讲解挂起函数、协程作用域、结构化并发与异常处理机制,并结合 Spring Boot 展示协程在后端开发中的实际应用。内容涵盖异步接口设计、数据库调用优化、线程资源管理以及性能调优策略,帮助开发者构建更加简洁高效的 Kotlin 后端服务架构。

122

2026.02.12

jquery插件有哪些
jquery插件有哪些

jquery插件有jQuery UI、jQuery Validate、jQuery DataTables、jQuery Slick、jQuery LazyLoad、jQuery Countdown、jQuery Lightbox、jQuery FullCalendar、jQuery Chosen和jQuery EasyUI等。本专题为大家提供jquery插件相关的文章、下载、课程内容,供大家免费下载体验。

156

2023.09.12

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

334

2023.10.13

jquery删除元素的方法
jquery删除元素的方法

jquery可以通过.remove() 方法、 .detach() 方法、.empty() 方法、.unwrap() 方法、.replaceWith() 方法、.html('') 方法和.hide() 方法来删除元素。更多关于jquery相关的问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

406

2023.11.10

jQuery hover()方法的使用
jQuery hover()方法的使用

hover()是jQuery中一个常用的方法,它用于绑定两个事件处理函数,这两个函数将在鼠标指针进入和离开匹配的元素时执行。想了解更多hover()的相关内容,可以阅读本专题下面的文章。

515

2023.12.04

jquery实现分页方法
jquery实现分页方法

在jQuery中实现分页可以使用插件或者自定义实现。想了解更多jquery分页的相关内容,可以阅读本专题下面的文章。

312

2023.12.06

jquery中隐藏元素是什么
jquery中隐藏元素是什么

jquery中隐藏元素是非常重要的一个概念,在使用jquery隐藏元素之前,需要先了解css样式中关于元素隐藏的属性,比如display、visibility、opacity等属性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

128

2024.02.23

jquery中什么是高亮显示
jquery中什么是高亮显示

jquery中高亮显示是指对页面搜索关键词时进行高亮显示,其实现办法:1、先获取要高亮显示的行,获取搜索的内容,再遍历整行内容,最后添加高亮颜色;2、使用“jquery highlight”高亮插件。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

183

2024.02.23

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.9万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

CSS教程
CSS教程

共754课时 | 42.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号