0

0

Java实战如何开发网页爬虫项目_Jsoup解析HTML文档与CSS选择器提取数据

P粉602998670

P粉602998670

发布时间:2026-03-18 15:00:14

|

584人浏览过

|

来源于php中文网

原创

Jsoup连接超时或返回空文档主因是默认超时过短(3秒)及反爬拦截;需显式设timeout≥8000ms、加User-Agent头、检查statusCode、JS渲染页须换工具。

java实战如何开发网页爬虫项目_jsoup解析html文档与css选择器提取数据

Jsoup连接超时或返回空文档的常见原因

直接用 Jsoup.connect(url).get() 却拿不到 HTML,十有八九是网络或反爬导致的——不是代码写错了,而是默认配置太“天真”。Jsoup 默认连接超时 3 秒、读取超时 3 秒,多数真实网站响应慢一点就直接抛 IOException;更常见的是服务器返回 200 但内容为空(比如被 JS 渲染、或服务端校验了 User-Agent)。

实操建议:

立即学习Java免费学习笔记(深入)”;

  • 必须显式设置超时:Jsoup.connect(url).timeout(10000)(单位毫秒,建议 ≥8000)
  • 加基础请求头绕过简单拦截:.userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36")
  • 检查响应状态码:Document doc = Jsoup.connect(url).execute().parse();,再用 response.statusCode() 确认是不是 200
  • 如果页面依赖 JS 渲染(如 Vue/React 路由页),Jsoup 无能为力,得换 Puppeteer 或 Selenium

用 CSS 选择器提取数据时 selector 写不对的典型表现

调用 doc.select("div.title") 却返回空集合,不是 Jsoup 有问题,而是 selector 和实际 HTML 结构对不上。CSS 选择器在 Jsoup 中支持良好,但不支持伪类(如 :nth-child)、不支持属性值正则匹配,且大小写敏感(HTML 是 case-insensitive,但 Jsoup 解析后按 DOM 树处理)。

实操建议:

立即学习Java免费学习笔记(深入)”;

  • 先用浏览器开发者工具复制“真正生效”的 selector(右键元素 → Copy → Copy selector),粘贴后手动删掉可能含动态 class 的部分(如 .title-abc123 改成 .title
  • 避免用过于深层的路径:body > div#wrap > section > article h1 容易因前端微调而失效,优先用带语义的 class 或 id:h1.post-title
  • 提取文本前务必判空:Elements titles = doc.select("h1.title"); if (!titles.isEmpty()) { String text = titles.get(0).text(); }
  • 注意 select() 返回 Elements(集合),selectFirst() 才返回单个 Element,别混用

解析含中文、特殊符号或乱码 HTML 的字符集问题

抓回来的页面显示“”或标题变成“”,基本是字符集没对上。Jsoup 默认按 UTF-8 解析,但很多国内网站声明的是 GBKGB2312,甚至 meta 标签里写的 charset 是错的。

百灵大模型
百灵大模型

蚂蚁集团自研的多模态AI大模型系列

下载

实操建议:

立即学习Java免费学习笔记(深入)”;

  • 强制指定编码比依赖自动探测更稳:Jsoup.parse(htmlString, "https://example.com", Parser.htmlParser()).outputSettings().charset(Charset.forName("GBK"))
  • 如果用 connect(),在 get() 前加 .parser(Parser.htmlParser()),再用 .data("charset", "GBK")(注意:这是 hack 方式,仅当响应头没设 charset 时有效)
  • 最可靠的做法:先用 Connection.Response response = Jsoup.connect(url).execute() 拿到原始字节流,用 response.bodyAsBytes() 自己按正确编码转字符串,再传给 Jsoup.parse()

内存与性能:大页面或高频请求下的泄漏风险

循环爬 1000 个页面却没释放 Document 对象,JVM 堆内存会持续上涨,最终 OutOfMemoryError。Jsoup 的 Document 不小,尤其含大量 script/style 标签时;而且它内部缓存了节点关系,GC 不容易立刻回收。

实操建议:

立即学习Java免费学习笔记(深入)”;

  • 每次解析完立刻丢弃引用:Document doc = Jsoup.connect(url).get(); // ... 处理逻辑; doc = null;
  • 禁用 Jsoup 内部的 HTML 解析缓存(默认开启):Parser.htmlParser().setTrackPosition(false),减少对象开销
  • 高频请求务必加延迟(哪怕 100ms),否则目标站封 IP 是分分钟的事,比内存问题来得更快
  • 别在循环里反复 new Connection —— Jsoup.connect() 本身轻量,但底层 HTTP 连接复用靠的是 OkHttp(Jsoup 1.15+ 内置),只要不用 .maxBodySize(0) 这类极端配置,一般没问题

真正难的从来不是写出能跑的代码,而是看懂 response 的 statusCode、确认 charset 是否生效、以及在 selector 失效时快速定位是结构变了还是 selector 写窄了——这些细节不打日志,光靠 print 是看不出问题的。

相关文章

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

193

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

19

2026.02.03

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1091

2023.08.02

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

256

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

1154

2024.03.01

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

848

2023.08.22

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

761

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

Python WebSocket实时通信与异步服务开发实践
Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践,系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例,帮助开发者构建高效稳定的实时通信系统,适用于聊天应用、实时数据推送等场景。

3

2026.03.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 4.5万人学习

C# 教程
C# 教程

共94课时 | 11.6万人学习

Java 教程
Java 教程

共578课时 | 84.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号