使用Jsoup与JavaScript从复杂HTML结构中提取特定文本

聖光之護

发布时间：2025-10-30 11:54:01

1104人浏览过

来源于php中文网

原创

使用Jsoup与JavaScript从复杂HTML结构中提取特定文本

本文提供了一份全面的指南，旨在教授如何高效地从复杂的html文档中提取特定文本。我们将重点介绍两种主要方法：利用java/kotlin中的jsoup库进行服务器端解析，以及使用javascript进行客户端数据提取。通过实际代码示例，您将学习如何精准定位并获取如uuid等关键数据，并了解在不同应用场景下的最佳实践和注意事项。

在网页数据抓取或前端数据处理的场景中，从复杂的HTML结构中精准提取特定文本是一项常见且重要的任务。例如，从一个包含大量表格和嵌套标签的HTML片段中，我们可能需要获取某个特定描述（如“name:”）对应的唯一标识符（UUID）。本教程将详细介绍如何通过Java/Kotlin中的Jsoup库和JavaScript来实现这一目标。

Jsoup解决方案：服务器端HTML解析

Jsoup是一个强大的Java库，用于解析HTML文档，提供了一套类似于jQuery的API，可以方便地通过CSS选择器来查找、修改和提取数据。

问题分析

在原始问题中，用户尝试使用 document.select("td:contains(name:)").get(0) 来获取目标文本。这个选择器能够成功定位到包含“name:”文本的

元素。然而，我们的目标是该元素相邻的兄弟元素中包含的标签内的文本。直接获取 td:contains(name:) 的结果，只会得到整个元素及其所有子内容，而非我们期望的纯文本值。
精准定位与提取

为了获取与“name:”关联的UUID，我们需要一个更精确的CSS选择器。利用Jsoup强大的选择器功能，我们可以结合“内容包含选择器”(:contains()) 和“相邻兄弟选择器”(+) 来实现。

Kacha
KaCha是一款革命性的AI写真工具，用AI技术将照片变成杰作！

下载

立即学习“Java免费学习笔记（深入）”；

CSS选择器解释：

td:contains(name:): 这个选择器会匹配所有内容中包含“name:”文本的元素。在我们的HTML结构中，它会选中 name: 所在的那个。
+ td: 这是一个相邻兄弟选择器。它会匹配紧跟在前面元素之后的第一个兄弟元素。这正是我们目标UUID所在的。
> span: 这是一个子元素选择器。它会匹配前面选中的元素的直接子元素。最终，我们成功定位到包含UUID的标签。
示例代码 (Java):
import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; public class JsoupHtmlExtractor { public static void main(String[] args) { // 模拟HTML内容，实际应用中可能来自网络请求或文件读取 String htmlContent = """ <td> <div> <h3>Id:</h3> <table style="border: none"> <tbody> <tr> <td style="border: none"><b>id:</b></td> <td style="border: none"><span style="margin-left: 15px">testuuid1</span></td> </tr> <tr> <td style="border: none"><b>idtype:</b></td> <td style="border: none"><span style="margin-left: 15px">uuid</span></td> </tr> <tr> <td style="border: none"><b>territory:</b></td> <td style="border: none"><span style="margin-left: 15px">GB</span></td> </tr> <tr> <td style="border: none"><b>type:</b></td> <td style="border: none"><span style="margin-left: 15px">cover</span></td> </tr> <tr> <td style="border: none"><b>version:</b></td> <td style="border: none"><span style="margin-left: 15px">aa3601f8-219a-43e6-be36-0aa49d2f0943</span></td> </tr> </tbody> </table> </div> <div> <h3>File:</h3> <table style="border: none"> <tbody> <tr> <td style="border: none"><b>extension:</b></td> <td style="border: none"><span style="margin-left: 15px">jpg</span></td> </tr> <tr> <td style="border: none"><b>md5Checksum:</b></td> <td style="border: none"><span style="margin-left: 15px">f5e1725f067a697805f4af28bef55720</span></td> </tr> <tr> <td style="border: none"><b>mimeType:</b></td> <td style="border: none"><span style="margin-left: 15px">image/jpeg</span></td> </tr> <tr> <td style="border: none"><b>name:</b></td> <td style="border: none"><span style="margin-left: 15px">cb6a296b-c7ba-4228-b9f2-d6e39947814e</span></td> </tr> <tr> <td style="border: none"><b>path:</b></td> <td style="border: none"><span style="margin-left: 15px"></span></td> </tr> </tbody> </table> </div> <div> <h3>FileInfo:</h3> <table style="border: none"> <tbody> <tr> <td style="border: none"><b>created:</b></td> <td style="border: none"><span style="margin-left: 15px">2022-08

HTMLSVG怎么嵌入页面_HTML矢量图形标签添加说明【教程】

HTML怎么添加div容器_布局容器添加方法【方法】

HTML浏览器不支持媒体怎么提示_HTML标签降级方法【汇总】

怎么把css和js并到html里面_CSS与JS合并到HTML文件技巧【指南】

HTML样式格式化综合问题_HTML样式格式化故障说明【说明】

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

Kotlin协程编程与Spring Boot集成实践

本专题围绕 Kotlin 协程机制展开，深入讲解挂起函数、协程作用域、结构化并发与异常处理机制，并结合 Spring Boot 展示协程在后端开发中的实际应用。内容涵盖异步接口设计、数据库调用优化、线程资源管理以及性能调优策略，帮助开发者构建更加简洁高效的 Kotlin 后端服务架构。

122

2026.02.12

jquery插件有哪些

jquery插件有jQuery UI、jQuery Validate、jQuery DataTables、jQuery Slick、jQuery LazyLoad、jQuery Countdown、jQuery Lightbox、jQuery FullCalendar、jQuery Chosen和jQuery EasyUI等。本专题为大家提供jquery插件相关的文章、下载、课程内容，供大家免费下载体验。

156

2023.09.12

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

334

2023.10.13

jquery删除元素的方法

jquery可以通过.remove() 方法、 .detach() 方法、.empty() 方法、.unwrap() 方法、.replaceWith() 方法、.html('') 方法和.hide() 方法来删除元素。更多关于jquery相关的问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

406

2023.11.10

jQuery hover()方法的使用

hover()是jQuery中一个常用的方法，它用于绑定两个事件处理函数，这两个函数将在鼠标指针进入和离开匹配的元素时执行。想了解更多hover()的相关内容，可以阅读本专题下面的文章。

515

2023.12.04

jquery实现分页方法

在jQuery中实现分页可以使用插件或者自定义实现。想了解更多jquery分页的相关内容，可以阅读本专题下面的文章。

312

2023.12.06

jquery中隐藏元素是什么

jquery中隐藏元素是非常重要的一个概念，在使用jquery隐藏元素之前，需要先了解css样式中关于元素隐藏的属性，比如display、visibility、opacity等属性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

128

2024.02.23

jquery中什么是高亮显示

jquery中高亮显示是指对页面搜索关键词时进行高亮显示，其实现办法：1、先获取要高亮显示的行，获取搜索的内容，再遍历整行内容，最后添加高亮颜色；2、使用“jquery highlight”高亮插件。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

183

2024.02.23

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板