Java实战如何开发网页爬虫项目_Jsoup解析HTML文档与CSS选择器提取数据

P粉602998670

发布时间：2026-03-18 15:00:14

584人浏览过

来源于php中文网

原创

Jsoup连接超时或返回空文档主因是默认超时过短（3秒）及反爬拦截；需显式设timeout≥8000ms、加User-Agent头、检查statusCode、JS渲染页须换工具。

java实战如何开发网页爬虫项目_jsoup解析html文档与css选择器提取数据

Jsoup连接超时或返回空文档的常见原因

直接用 Jsoup.connect(url).get() 却拿不到 HTML，十有八九是网络或反爬导致的——不是代码写错了，而是默认配置太“天真”。Jsoup 默认连接超时 3 秒、读取超时 3 秒，多数真实网站响应慢一点就直接抛 IOException；更常见的是服务器返回 200 但内容为空（比如被 JS 渲染、或服务端校验了 User-Agent）。

实操建议：

立即学习“Java免费学习笔记（深入）”；

必须显式设置超时：Jsoup.connect(url).timeout(10000)（单位毫秒，建议 ≥8000）
加基础请求头绕过简单拦截：.userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36")
检查响应状态码：Document doc = Jsoup.connect(url).execute().parse();，再用 response.statusCode() 确认是不是 200
如果页面依赖 JS 渲染（如 Vue/React 路由页），Jsoup 无能为力，得换 Puppeteer 或 Selenium

用 CSS 选择器提取数据时 selector 写不对的典型表现

调用 doc.select("div.title") 却返回空集合，不是 Jsoup 有问题，而是 selector 和实际 HTML 结构对不上。CSS 选择器在 Jsoup 中支持良好，但不支持伪类（如 :nth-child）、不支持属性值正则匹配，且大小写敏感（HTML 是 case-insensitive，但 Jsoup 解析后按 DOM 树处理）。

实操建议：

立即学习“Java免费学习笔记（深入）”；

先用浏览器开发者工具复制“真正生效”的 selector（右键元素 → Copy → Copy selector），粘贴后手动删掉可能含动态 class 的部分（如 .title-abc123 改成 .title）
避免用过于深层的路径：body > div#wrap > section > article h1 容易因前端微调而失效，优先用带语义的 class 或 id：h1.post-title
提取文本前务必判空：Elements titles = doc.select("h1.title"); if (!titles.isEmpty()) { String text = titles.get(0).text(); }
注意 select() 返回 Elements（集合），selectFirst() 才返回单个 Element，别混用

解析含中文、特殊符号或乱码 HTML 的字符集问题

抓回来的页面显示“”或标题变成“”，基本是字符集没对上。Jsoup 默认按 UTF-8 解析，但很多国内网站声明的是 GBK 或 GB2312，甚至 meta 标签里写的 charset 是错的。

百灵大模型

蚂蚁集团自研的多模态AI大模型系列

下载

实操建议：

立即学习“Java免费学习笔记（深入）”；

强制指定编码比依赖自动探测更稳：Jsoup.parse(htmlString, "https://example.com", Parser.htmlParser()).outputSettings().charset(Charset.forName("GBK"))
如果用 connect()，在 get() 前加 .parser(Parser.htmlParser())，再用 .data("charset", "GBK")（注意：这是 hack 方式，仅当响应头没设 charset 时有效）
最可靠的做法：先用 Connection.Response response = Jsoup.connect(url).execute() 拿到原始字节流，用 response.bodyAsBytes() 自己按正确编码转字符串，再传给 Jsoup.parse()

内存与性能：大页面或高频请求下的泄漏风险

循环爬 1000 个页面却没释放 Document 对象，JVM 堆内存会持续上涨，最终 OutOfMemoryError。Jsoup 的 Document 不小，尤其含大量 script/style 标签时；而且它内部缓存了节点关系，GC 不容易立刻回收。

实操建议：

立即学习“Java免费学习笔记（深入）”；

每次解析完立刻丢弃引用：Document doc = Jsoup.connect(url).get(); // ... 处理逻辑; doc = null;
禁用 Jsoup 内部的 HTML 解析缓存（默认开启）：Parser.htmlParser().setTrackPosition(false)，减少对象开销
高频请求务必加延迟（哪怕 100ms），否则目标站封 IP 是分分钟的事，比内存问题来得更快
别在循环里反复 new Connection —— Jsoup.connect() 本身轻量，但底层 HTTP 连接复用靠的是 OkHttp（Jsoup 1.15+ 内置），只要不用 .maxBodySize(0) 这类极端配置，一般没问题

真正难的从来不是写出能跑的代码，而是看懂 response 的 statusCode、确认 charset 是否生效、以及在 selector 失效时快速定位是结构变了还是 selector 写窄了——这些细节不打日志，光靠 print 是看不出问题的。

Java 程序运行时类路径搜索顺序详解

Java中的LockSupport与wait/notify的区别_不需要同步块及unpark可提前发放许可机制

如何在Java中利用CompletableFuture串行执行多个异步任务_thenApply与thenAccept实战

如何在 Java 中通过用户输入初始化对象属性并正确调用 set 方法

如何配置Tomcat服务器_在IDEA中部署Java Web项目全流程

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

java jvm print String NULL if select 字符串循环堆 class copy JS 对象 dom 选择器伪类 windows okhttp http https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Java record 的不可变性与 final 字段自动添加规则下一篇：暂无

作者最新文章

Django怎么配置日志_settings中LOGGING字典配置与按天轮转

2026-03-18 10:37

如何分析AWR中的等待事件_Top 10 Foreground Events解读

2026-03-18 10:37

如何解决分区表数据导入时性能极差_直接路径加载Direct Path与禁用索引加载

2026-03-18 10:38

什么是Java 9新增的Flow API_响应式流(Reactive Streams)的发布订阅标准接口解析

2026-03-18 10:38

什么是Java中的守护线程(Daemon)_后台服务线程的特性与JVM退出条件

2026-03-18 10:38

如何重命名分区_ALTER TABLE RENAME PARTITION规范化分区命名机制

2026-03-18 10:38

CSS如何让进度条加载变得平滑而不再卡顿

2026-03-18 10:39

Python开发工具选哪个好_PyCharm与VSCode优缺点对比

2026-03-18 10:39

Python鼠标怎么录制轨迹_pynput记录并精确回放复杂系统键盘鼠标点击操作

2026-03-18 10:40

mysql权限如何迁移到新服务器_mysql授权迁移方法

2026-03-18 10:40

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容，供大家免费下载体验。

193

2023.09.27

python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容，阅读专题下面的文章了解更多详细教程。

2026.02.03

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

1091

2023.08.02

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

256

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

1154

2024.03.01

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

848

2023.08.22

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践，系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例，帮助开发者构建高效稳定的实时通信系统，适用于聊天应用、实时数据推送等场景。

2026.03.18

热门下载

网站特效

网站源码

网站素材

前端模板