Java里的java.net.URL类如何解析网页源码_基础爬虫逻辑实现

P粉602998670

发布时间：2026-03-10 11:24:40

579人浏览过

来源于php中文网

原创

必须调用openconnection()并获取输入流才能读取网页内容；需检查响应码、设置超时、指定字符编码、处理重定向、设置user-agent、关闭连接，且无法获取js渲染后的内容。

java里的java.net.url类如何解析网页源码_基础爬虫逻辑实现

用 `java.net.URL` 打开连接后读不到网页内容？

直接 new URL("https://example.com") 只是构造了一个地址对象，不发起请求，也不加载数据。必须调用 openConnection()，再显式获取输入流才能读源码。

常见错误现象：NullPointerException 或空字符串 —— 忘了调用 getInputStream()，或者没处理重定向、字符编码。

务必检查 HttpURLConnection.getResponseCode() 是否为 200，否则可能拿到 301/404 响应体（甚至空）
默认使用平台编码读取流，中文会乱码；必须用 HttpURLConnection.getContentEncoding() 或响应头 Content-Type 中的 charset 指定编码，比如 UTF-8
别跳过 setConnectTimeout() 和 setReadTimeout()，否则网络卡住会无限阻塞

`HttpURLConnection` 不自动处理 302 重定向？

Java 默认对 HttpURLConnection 的重定向行为是“有限自动”：JDK 7+ 对 GET/HEAD 请求默认跟随 3xx，但前提是 setInstanceFollowRedirects(true)（默认是 true），且服务器返回的 Location 是绝对 URL。一旦遇到相对路径、307/308，或手动设置了 setInstanceFollowRedirects(false)，就会停在重定向响应上，读到的是 HTML 跳转页而非目标页源码。

检查响应码是否为 301/302，如果是，手动解析 getHeaderField("Location") 并重建 URL 再请求
避免依赖自动重定向，尤其在爬虫场景下——它不保留 Cookie、不复用连接，还可能绕过你设置的请求头
若需完整重定向链追踪（比如调试跳转逻辑），必须自己循环处理，不能只靠一次 connect()

为什么读出来的源码里有 JavaScript 渲染的内容缺失？

java.net.URL + HttpURLConnection 只拿原始 HTML 响应体，不执行 JS、不解析 DOM、不触发 AJAX 请求。所谓“网页源码”，在这里就是服务器吐出的那坨纯文本，和你在浏览器里右键“查看网页源代码”看到的一致，但和 F12 开发者工具里 Elements 面板显示的动态结果完全不同。

Beautiful.ai

AI在线创建幻灯片

下载

立即学习“Java免费学习笔记（深入）”；

如果目标内容由 fetch() 或 axios 加载，或通过 document.write() 插入，URL 方式一定拿不到
别试图用正则从 HTML 里硬扒 JSON 数据块——先确认该数据是否真在初始 HTML 中（查看 Network → Doc 标签页的响应），否则徒劳
需要渲染后内容？换方案：用 WebDriver（如 ChromeDriver）或带 JS 执行能力的 HTTP 客户端（如 Playwright Java），不是 URL 类的问题

用 `URL` 实现基础爬虫时最常漏掉的三件事

很多人写完 url.openStream() 就以为完事了，结果线上跑几天就挂：超时、连接泄漏、被封 IP。根本原因不是代码逻辑错，而是忽略了 HTTP 协议层的实际约束。

每次 HttpURLConnection 用完必须显式调用 disconnect()，否则连接不会释放，容易耗尽 socket 资源
没设 setRequestProperty("User-Agent", "...") —— 大量网站会直接拒掉空 UA 的请求，返回 403 或空白页
没加请求间隔（Thread.sleep(1000)），高频请求会被服务端限流或拉黑，且违反 robots.txt 约束

复杂点在于：这些不是语法错误，编译全过，本地测几次也正常，但一放真实环境就崩。最容易被忽略的是连接没关和 UA 没设——它们不会报错，只会静默失败。

如何配置Java的OAuth2授权环境_Spring Security集成指南

如何在Java中将两个List合并为一个Map_Stream API的Collectors.toMap实战

如何为Java应用配置JMX监控环境_启动参数与远程连接权限

如何在Java中提取List前N个元素_Stream.limit与subList的分页截取

怎么在Java中快速填充一个数组_Arrays.fill方法的应用场景

java速学教程(入门到精通)

java怎么学习？java怎么入门？java在哪学？java怎么学才快？不用担心，这里为大家提供了java速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

java 爬虫 .net json ajax Cookie 字符串循环 Thread JS 对象 dom location http https axios

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Java中的自定义注解生命周期怎么选_RetentionPolicy三态分析下一篇：什么是Java中的锁粗化(Lock Coarsening)与锁消除(Lock Elision)_JIT编译器的并发性能优化

作者最新文章

如何在Golang中利用Kind搭建本地K8s集群 Go语言CI环境容器化

2026-03-10 09:23

如何在Golang中利用Cert-Manager管理证书 Go语言TLS自动化配置

2026-03-10 09:25

如何在Golang中通过反射获取接口的底层具体值 Go语言动态类型剥离

2026-03-10 09:25

快手怎么加入粉丝团_快手主播粉丝牌

2026-03-10 09:26

如何在Golang中解决Checksum Mismatch错误 Go语言go.sum校验机制解析

2026-03-10 09:28

mysql如何从5.7升级到8.0_mysql跨版本大升级指南

2026-03-10 09:28

如何在Golang中利用Math/Big进行高精度浮点运算 Go语言金融计算精度

2026-03-10 09:28

如何在Golang中利用SonarQube检查代码质量 Go语言静态扫描流水线

2026-03-10 09:31

CSS如何给元素添加实线边框_通过border-style和width定义css

2026-03-10 09:32

mysql升级后用户权限会丢失吗_mysql权限迁移方案

2026-03-10 09:33

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

454

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

546

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

334

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

ajax教程

php中文网为大家带来ajax教程合集，Ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换，Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。php中文网还为大家带来ajax的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

166

2023.06.14

ajax中文乱码解决方法

ajax中文乱码解决方法有设置请求头部的字符编码、在服务器端设置响应头部的字符编码和使用encodeURIComponent对中文进行编码。本专题为大家提供ajax中文乱码相关的文章、下载、课程内容，供大家免费下载体验。

170

2023.08.31

ajax传递中文乱码怎么办

ajax传递中文乱码的解决办法：1、设置统一的编码方式；2、服务器端编码；3、客户端解码；4、设置HTTP响应头；5、使用JSON格式。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

124

2023.11.15

ajax网站有哪些

使用ajax的网站有谷歌、维基百科、脸书、纽约时报、亚马逊、stackoverflow、twitter、hacker news、shopify和basecamp等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

254

2024.09.24

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

热门下载

网站特效

网站源码

网站素材

前端模板