0

0

如何在Golang中实现并发爬虫_Golang并发爬虫设计与实践方法

P粉602998670

P粉602998670

发布时间:2026-02-11 11:54:12

|

915人浏览过

|

来源于php中文网

原创

直接用 goroutine + http.Client 易被封或超时,因连接复用缺失、请求头雷同、无延迟控制、DNS 未缓存,且默认 Transport 连接数限制严;应自定义 Transport、启用 DNS 缓存、设合理 Header 与限速。

如何在golang中实现并发爬虫_golang并发爬虫设计与实践方法

为什么直接用 goroutine + http.Client 会很快被封或超时

Go 的并发模型看似适合爬虫,但裸写 go fetch(url) 很快触发目标站的反爬机制:连接复用缺失、请求头雷同、无延迟控制、DNS 查询未复用。更关键的是,http.DefaultClientTransport 默认只允许最多 100 个空闲连接,且不复用 DNS 缓存,高频请求下大量新建 TCP 连接,容易被识别为扫描行为。

实操建议:

立即学习go语言免费学习笔记(深入)”;

  • 显式配置 http.Transport,设置 MaxIdleConns(如 200)、MaxIdleConnsPerHost(如 100)、IdleConnTimeout(如 30 * time.Second)
  • 启用 DNS 缓存:用 net.Resolver 配合 transport.DialContext 实现自定义 DNS 解析,避免每次请求都查 DNS
  • 所有请求必须带合理 User-AgentAccept 等 header,且可轮换(例如从切片中随机取)
  • 对同一域名加请求间隔(如 time.Sleep(100 * time.Millisecond)),用 rate.Limiter 更稳妥

如何安全地控制并发数与任务分发

sync.WaitGroup + 无缓冲 channel 直接塞 URL 容易导致 goroutine 泛滥或 channel 阻塞;而用 for i := 0; i 又难统一收口。正确做法是「固定 worker 数量 + channel 控制输入流」。

实操建议:

立即学习go语言免费学习笔记(深入)”;

  • 启动固定数量(如 5–20)的 worker goroutine,每个从一个 chan string 中读取 URL
  • sync.WaitGroup 管理 worker 生命周期,worker 内部用 defer wg.Done()
  • 关闭 channel 前确保所有 URL 已发送完毕,否则部分 worker 会提前退出;可用 close(urls) 触发所有 worker 自然退出
  • 别把解析逻辑(如 XPath、CSS 选择器)也塞进 worker——提取出单独的 parse(resp *http.Response) []string 函数,便于测试和复用

遇到重定向、429、503 怎么自动降频与重试

默认 http.Client 会自动跟随 3xx 重定向,但有些反爬中间件(如 Cloudflare)返回 429 或 503 后还附带 Retry-After 头,盲目重试只会加重封禁风险。

Interior AI
Interior AI

AI室内设计,上传室内照片自动帮你生成多种风格的室内设计图

下载

实操建议:

立即学习go语言免费学习笔记(深入)”;

  • 禁用自动重定向:CheckRedirect: func(req *http.Request, via []*http.Request) error { return http.ErrUseLastResponse }
  • 手动检查响应状态码:对 429 / 503,读取 resp.Header.Get("Retry-After"),转成秒数后 sleep 对应时间;若无该 header,则用指数退避(如第一次 1s、第二次 2s、第三次 4s)
  • 重试次数限制在 3 次以内,超过则记录日志并丢弃任务
  • 把重试逻辑封装进独立函数,例如 fetchWithRetry(url string, client *http.Client, limiter *rate.Limiter) (*http.Response, error),避免每个 worker 重复写

如何避免内存泄漏与 goroutine 泄露

常见错误是:channel 未关闭、HTTP body 未 Close()、worker 在 panic 后未 recover、或用 time.After 导致 timer 不释放。这些都会让 goroutine 持续挂起,最终 OOM。

实操建议:

立即学习go语言免费学习笔记(深入)”;

  • 每个 http.Response.Body 必须在使用后调用 resp.Body.Close(),哪怕只读了 status code —— 否则连接无法复用
  • worker 内部用 defer func() { if r := recover(); r != nil { log.Printf("panic: %v", r) } }() 拦截 panic,防止 goroutine 消失无踪
  • 不要用 time.After 做单次超时,改用 context.WithTimeout,确保超时后整个请求链能及时释放资源
  • pprof 定期检查 goroutine 数量:curl http://localhost:6060/debug/pprof/goroutine?debug=1,上线前务必验证峰值是否稳定

真正难的不是并发数量,而是让每个 goroutine 都“守规矩”:按时关连接、按需睡时间、按规则退避、按路径清理资源。漏掉其中一环,跑两天就卡死或被限速,比单线程还慢。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang如何定义变量
golang如何定义变量

golang定义变量的方法:1、声明变量并赋予初始值“var age int =值”;2、声明变量但不赋初始值“var age int”;3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

206

2024.02.23

golang有哪些数据转换方法
golang有哪些数据转换方法

golang数据转换方法:1、类型转换操作符;2、类型断言;3、字符串和数字之间的转换;4、JSON序列化和反序列化;5、使用标准库进行数据转换;6、使用第三方库进行数据转换;7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

233

2024.02.23

golang常用库有哪些
golang常用库有哪些

golang常用库有:1、标准库;2、字符串处理库;3、网络库;4、加密库;5、压缩库;6、xml和json解析库;7、日期和时间库;8、数据库操作库;9、文件操作库;10、图像处理库。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

345

2024.02.23

golang和python的区别是什么
golang和python的区别是什么

golang和python的区别是:1、golang是一种编译型语言,而python是一种解释型语言;2、golang天生支持并发编程,而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

212

2024.03.05

golang是免费的吗
golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的开源编程语言,采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

401

2024.05.21

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

322

2025.06.09

golang相关判断方法
golang相关判断方法

本专题整合了golang相关判断方法,想了解更详细的相关内容,请阅读下面的文章。

196

2025.06.10

golang数组使用方法
golang数组使用方法

本专题整合了golang数组用法,想了解更多的相关内容,请阅读专题下面的文章。

762

2025.06.17

Rust异步编程与Tokio运行时实战
Rust异步编程与Tokio运行时实战

本专题聚焦 Rust 语言的异步编程模型,深入讲解 async/await 机制与 Tokio 运行时的核心原理。内容包括异步任务调度、Future 执行模型、并发安全、网络 IO 编程以及高并发场景下的性能优化。通过实战示例,帮助开发者使用 Rust 构建高性能、低延迟的后端服务与网络应用。

1

2026.02.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 5万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号