0

0

Java初学者项目实战:开发一个基本的网络爬虫应用

P粉602998670

P粉602998670

发布时间:2026-02-01 16:31:22

|

601人浏览过

|

来源于php中文网

原创

Jsoup是Java初学者写网络爬虫最稳妥的选择,但必须设置超时和User-Agent以防403错误;优先用select()而非getElementById();保存文件需显式指定UTF-8编码;JS渲染等复杂场景需换用Selenium或Playwright。

java初学者项目实战:开发一个基本的网络爬虫应用

Java初学者直接上手写网络爬虫Jsoup 是最稳妥的选择——它不强制你处理 HTTP 连接细节、编码转换、DOM 解析异常,也不会因为一个重定向就抛出 IOException 而卡住。

用 Jsoup.get() 抓取页面前必须设超时和用户代理

默认超时是 30 秒,且没有 User-Agent,很多网站会直接返回 403 或空响应。不加这两项,你可能反复看到 HttpStatusException: status code is 403 却查不出原因。

  • connectTimeout(5000):设为 5 秒,避免卡死
  • userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"):模拟主流浏览器,绕过基础反爬
  • 别用 Jsoup.connect(url).get() 简写,漏掉超时设置是新手高频失误

解析 HTML 时优先用 select() 而不是 getElementById()

getElementById() 要求 ID 唯一且静态,而实际网页中 ID 可能动态生成、重复或根本不存在;select() 支持 CSS 选择器,灵活又贴近前端调试习惯,比如抓取所有新闻标题:doc.select("h3.title a")

  • select("a[href]") 提取带链接的标签,比遍历所有 Element 更快
  • 若选择器返回空集合,Elements 不会报错,但 .first() 会返回 null——记得判空再调 .text()
  • 避免写 doc.body().getElementsByTag("div").get(2),结构微调就崩

保存爬取内容到本地文件需手动指定 UTF-8 编码

FileWriter 直接写中文会乱码,因为它的默认编码依赖系统(Windows 是 GBK)。即使源页面声明了 UTF-8,不显式指定,文件里就是问号或方块。

讯飞星火
讯飞星火

科大讯飞推出的多功能AI智能助手

下载

立即学习Java免费学习笔记(深入)”;

  • 改用 Files.write(Paths.get("output.txt"), content.getBytes(StandardCharsets.UTF_8))
  • 如果用 PrintWriter,必须传入 Charset.forName("UTF-8") 构造参数
  • 写入前建议先用 doc.charset() 确认网页实际编码,有些页面 meta 声明是 UTF-8,但响应头是 GB2312
Document doc = Jsoup.connect("https://example.com")
    .userAgent("Mozilla/5.0")
    .timeout(5000)
    .get();
Elements titles = doc.select("h2.post-title");
for (Element title : titles) {
    String text = title.text();
    if (!text.isEmpty()) {
        System.out.println(text);
    }
}

真正难的不是写出第一版爬虫,而是当目标网站加了 JavaScript 渲染、登录态校验或请求频率限制时,Jsoup 就彻底失效——这时候得换 SeleniumPlaywright,但那已经不是“初学者项目”范畴了。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

237

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

499

2024.03.01

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

516

2023.06.20

js获取当前时间
js获取当前时间

JS全称JavaScript,是一种具有函数优先的轻量级,解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言,主要用于Web,常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

246

2023.07.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

361

2023.08.03

js是什么意思
js是什么意思

JS是JavaScript的缩写,它是一种广泛应用于网页开发的脚本语言。JavaScript是一种解释性的、基于对象和事件驱动的编程语言,通常用于为网页增加交互性和动态性。它可以在网页上实现复杂的功能和效果,如表单验证、页面元素操作、动画效果、数据交互等。

5358

2023.08.17

js删除节点的方法
js删除节点的方法

js删除节点的方法有:1、removeChild()方法,用于从父节点中移除指定的子节点,它需要两个参数,第一个参数是要删除的子节点,第二个参数是父节点;2、parentNode.removeChild()方法,可以直接通过父节点调用来删除子节点;3、remove()方法,可以直接删除节点,而无需指定父节点;4、innerHTML属性,用于删除节点的内容。

483

2023.09.01

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

30

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.8万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.1万人学习

CSS教程
CSS教程

共754课时 | 26.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号