0

0

怎么用Java写一个简易的网页爬虫_Jsoup解析HTML获取图片链接

P粉602998670

P粉602998670

发布时间:2026-03-11 13:59:31

|

439人浏览过

|

来源于php中文网

原创

jsoup连接超时或403被拒绝时,需显式设置.timeout(10000)和.useragent(),补充referer等请求头;遇懒加载取data-src,用absurl()补全路径,下载前解析url并编码中文文件名,控制并发防封ip。

怎么用java写一个简易的网页爬虫_jsoup解析html获取图片链接

Jsoup连接超时或403被拒绝怎么办

直接用 Jsoup.connect(url).get() 经常卡住或抛出 IOException,不是代码写错了,而是目标网站加了反爬或网络不稳定。默认超时是 3 秒,很多服务器响应慢一点就直接失败;更常见的是没带 User-Agent,被当成爬虫直接 403 拒绝。

  • 必须显式设置超时:用 .timeout(10000)(单位毫秒),10 秒对大多数网页够用
  • 一定要加请求头:用 .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"),否则多数新闻、博客类站点会拦
  • 如果仍 403,先用浏览器开发者工具看真实请求的 User-Agent 和是否带 Referer,再补上 .header("Referer", "https://example.com")

用select()提取img标签src但结果为空

doc.select("img[src]") 却拿不到链接?常见原因是 HTML 里 src 是懒加载属性(比如 data-src),或者图片在 JS 渲染后才插入 DOM —— Jsoup 不执行 JS,只解析原始 HTML。

  • 先检查原始 HTML 是否真有 src:用 System.out.println(doc.html()) 打印出来看一眼
  • 遇到 data-srcdata-original,改用 img.attr("data-src") 取值
  • 如果 select("img") 能拿到元素但 .attr("src") 返回空字符串,说明属性名不对,用 .attributes() 看全量属性
  • 绝对路径和相对路径要处理:用 img.absUrl("src") 自动补全成完整 URL,别用 img.attr("src") 直接拼

下载图片时文件名重复或乱码

src 提取文件名用 url.substring(url.lastIndexOf("/")+1) 很容易出错:URL 带查询参数(如 ?v=2023)、中文名未编码、后缀缺失都会导致保存失败或打不开。

蛙蛙写作——超级AI智能写作助手
蛙蛙写作——超级AI智能写作助手

蛙蛙写作辅助AI写文,帮助获取创意灵感,提供拆书、小说转剧本、视频生成等功能,是一款功能全面的AI智能写作工具。

下载
  • java.net.URL 解析再取路径: new URL(imgUrl).getPath(),比字符串截取可靠
  • 文件名含中文?用 URLEncoder.encode(filename, "UTF-8") 编码,但注意只编码文件名部分,别把整个 URL 都 encode
  • 没后缀的 URL(如 https://site.com/pic/123)要根据 Content-Type 推断:下载前发 HEAD 请求,或用 Connection.head().execute().contentType()
  • 多个图片同名?在保存前加时间戳或哈希前缀,比如 "img_" + System.currentTimeMillis() + "_" + filename

批量抓取时内存爆掉或线程阻塞

循环里反复调用 Jsoup.connect() 不关连接、不控制并发,跑几十个链接就 OOM 或线程卡死。Jsoup 默认用 HttpURLConnection,不自动复用连接,也不限速。

立即学习Java免费学习笔记(深入)”;

  • 每个 Connection 调用完不用管,但大循环里建议加 Thread.sleep(500) 降低频率,避免被封 IP
  • 别用 ExecutorService 无限制开线程:最多设 3–5 个线程,用 Executors.newFixedThreadPool(3)
  • 大 HTML 文档(>1MB)解析慢且吃内存,用 .maxBodySize(0) 关闭 body 大小限制,但得确保你真需要全部内容
  • 如果只是扒图,没必要 parse 整个文档:用 Jsoup.parseBodyFragment(htmlString) 更轻量

真正麻烦的从来不是怎么取到 src,而是 URL 是否有效、重定向是否跟、图片是否已删、服务器是否限流——这些没法靠 selector 一行代码解决。

相关文章

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1566

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1208

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

1184

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

192

2025.07.29

c++字符串相关教程
c++字符串相关教程

本专题整合了c++字符串相关教程,阅读专题下面的文章了解更多详细内容。

131

2025.08.07

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

3

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 4.3万人学习

C# 教程
C# 教程

共94课时 | 11万人学习

Java 教程
Java 教程

共578课时 | 80万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号