如何用Java编写一个简单的爬虫程序_URL连接与流处理

P粉602998670

发布时间：2026-03-07 09:17:02

573人浏览过

来源于php中文网

原创

httpurlconnection发get请求最稳：需设超时、禁重定向、检查响应码、显式指定字符集、用try-with-resources关流、加user-agent和accept头、避免复用conn、并发用executorservice独立创建连接。

如何用java编写一个简单的爬虫程序_url连接与流处理

Java里用HttpURLConnection发GET请求最稳

别一上来就找第三方库，HttpURLConnection 是JDK自带、无依赖、够用。它不自动重定向、不自动解压、不缓存响应体——看似麻烦，实则是可控性的来源。

常见错误是没设 connectTimeout 和 readTimeout，导致线程卡死；还有忽略 setInstanceFollowRedirects(false)，结果302跳转后状态码还是200，但内容已是重定向HTML。

必须调用 setRequestMethod("GET")，否则某些JDK版本默认为POST
记得在 getInputStream() 前先检查 getResponseCode()，4xx/5xx时该用 getErrorStream()
读取流后务必调用 disconnect()，否则连接可能堆积（尤其在循环爬多URL时）

用try-with-resources安全读取响应流

手动关流容易漏，InputStream 和 BufferedReader 都支持自动关闭，但要注意顺序：外层包装流必须在内层之前声明。

别用 response.toString() 或直接转String——HTTP响应可能含BOM、编码不一致，InputStreamReader 必须显式指定字符集，比如 UTF-8。

立即学习“Java免费学习笔记（深入）”；

AI Code Reviewer

AI自动审核代码

下载

优先用 new InputStreamReader(conn.getInputStream(), StandardCharsets.UTF_8)，而非 new InputStreamReader(conn.getInputStream())
如果响应头里有 Content-Type: text/html; charset=gbk，就得按gbk解码，硬写UTF-8会乱码
大响应体别一次性 readAllBytes()，内存爆得悄无声息；用 BufferedReader.readLine() 流式处理更稳妥

遇到403或空响应？先看User-Agent和Accept头

多数网站对无 User-Agent 的请求直接返回403或空体，不是代码错，是被服务端拦截了。

Accept 头也关键：不设的话，有些API只返回JSON，但默认值可能是 */*，触发降级返回HTML；设成 application/json 才能拿到结构化数据。

必须调用 conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36")
加 conn.setRequestProperty("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8") 模拟浏览器行为
别学网上示例写 "Connection: keep-alive" —— HttpURLConnection 默认就复用连接，手动设反而干扰内部逻辑

别在主线程里跑多个URL，小心DNS阻塞和TCP等待

单线程串行请求，每个都要经历DNS解析→TCP握手→TLS协商→发送→等待→读取，耗时全叠加。并发不是靠开10个线程就完事，得控制连接池和超时。

真要并发，用 ExecutorService + Future，但每个 HttpURLConnection 实例必须独立创建——复用同一个conn对象在多线程下会出错。

每轮请求前 new 一个 URL(url).openConnection()，别缓存conn对象
DNS问题常被忽略：本地hosts没配、运营商DNS污染，可临时改 System.setProperty("sun.net.inetaddr.ttl", "0") 禁用JVM DNS缓存
如果目标站有反爬，Thread.sleep(1000) 比暴力并发更有效，也更不容易被封IP

真正难的从来不是连上URL，而是判断响应是否“可用”：状态码200不代表HTML结构没变，Content-Length: 0 不代表一定失败，有时候是JS渲染页。这时候光靠流处理不够，得接解析层——但那是另一个问题了。

如何处理Java中的大整数运算_BigInteger类常用方法介绍

如何解决Java安装时权限不足的问题_管理员模式运行与修复

如何在Java中配置JMH性能基准测试环境_Java代码性能调优

Java中的方法引用(Method Reference)怎么用_Lambda与OOP结合

Java里的ReentrantReadWriteLock锁降级怎么做_读写锁转换规则

相关标签:

java 爬虫 json xhtml jvm String try xml 循环堆 Length 线程多线程主线程 Thread 并发 JS 对象 bom windows http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何优雅地处理Java中的网络超时异常_SocketTimeoutException设置下一篇：如何在 Docker 容器中生成并托管 Javadoc 文档

作者最新文章

微信网页版官网地址微信网页版在线登录使用教程

2026-03-05 14:18

iPhone查找App怎么看对方位置_苹果手机实时定位共享教程

2026-03-05 14:19

豆包网页版电脑版入口_豆包网页版浏览器免下载登录入口

2026-03-05 14:19

微信文件传输助手不见了怎么找出来_搜索与找回文件传输助手方法

2026-03-05 14:20

哔哩哔哩bilibili官网首页入口 B站网页版官方直接打开链接

2026-03-05 14:20

拼多多开店需要什么条件拼多多入驻流程与费用标准详解

2026-03-05 14:22

搜有红包官方网站入口搜有红包活动最新网址

2026-03-05 14:22

火狐浏览器怎么解除弹窗拦截_Firefox浏览器弹窗设置

2026-03-05 14:23

小红书搜索记录怎么彻底删除_清理小红书历史搜索词方法

2026-03-05 14:23

Yandex搜索引擎网页版入口_俄罗斯搜索引擎Yandex官网入口

2026-03-05 14:23

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

453

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

546

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

331

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

970

2023.08.02

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1943

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2117

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1159

2024.11.28

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板