0

0

Golang并发爬虫怎么实现_Golang并发网络请求实战

P粉602998670

P粉602998670

发布时间:2026-01-28 10:47:02

|

458人浏览过

|

来源于php中文网

原创

限流是关键,需用带缓冲的channel模拟信号量控制并发数,避免内存暴涨、IP被封、DNS耗尽等问题,核心在于可控并发而非无节制启动goroutine。

golang并发爬虫怎么实现_golang并发网络请求实战

goroutine + channel 控制并发数,别直接起成百上千个

无节制启 goroutine 是最常见错误:内存暴涨、被目标站封 IP、DNS 耗尽。必须限流。核心不是“能并发”,而是“可控并发”。semaphore 本质就是带缓冲的 chan struct{},每发一个请求前先 ,完成后 sem 。

  • 缓冲大小即最大并发数,比如 sem := make(chan struct{}, 10) 表示最多同时 10 个请求
  • 所有请求逻辑必须包裹在 func() { 中,否则漏释放会卡死
  • 别用 time.Sleep 模拟限速——它不释放 goroutine,只是挂起;真限速要用 time.Ticker 配合 channel

http.Client 必须复用,且设置超时和连接池

每次 new http.Client 会新建底层 Transport,导致 TCP 连接无法复用、TIME_WAIT 爆满、DNS 查询重复。默认 client 的 DefaultTransport 虽然有连接池,但参数极保守(MaxIdleConns=100),爬虫场景下远远不够。

  • 显式构造 http.Client,并配置 TransportMaxIdleConnsMaxIdleConnsPerHost 建议设为 200~500
  • 必须设 Timeout(总超时)、IdleConnTimeout(空闲连接保持时间)、TLSHandshakeTimeout,否则慢响应或 TLS 卡住会拖垮整个池
  • 如果目标站支持 HTTP/2,确保 Go 版本 ≥1.6 且服务端开启,能显著降低连接开销

URL 去重和任务分发用 map[string]struct{} + sync.Map,别用全局锁

爬虫最耗时的不是网络,是重复请求和锁竞争。用 map[string]struct{} 存已抓 URL 是最小开销方案(struct{} 零字节),但普通 map 不支持并发读写。

  • 高频写入场景(如解析出大量新链接)用 sync.Map,注意它的 LoadOrStore 返回值是 value, loaded bool,要靠 loaded 判断是否已存在
  • 不要把去重逻辑塞进主 goroutine;把新发现的 URL 发到一个专用去重 channel,由单个 goroutine 统一处理并分发给 worker
  • 如果需要持久化去重(重启不丢),改用 boltbadger,但会引入 IO 延迟,需权衡

错误处理不能只打日志,要区分可重试与不可重试

net/http 错误类型杂乱:DNS 失败、连接拒绝、TLS 握手超时、HTTP 4xx/5xx、body 读取中断……全丢进重试队列只会让问题恶化。

LOGO.com
LOGO.com

在线生成Logo,100%免费

下载

立即学习go语言免费学习笔记(深入)”;

  • 不可重试:400、401、403、404、410、429(Too Many Requests)、501、505 —— 这些是语义明确的失败,重试无意义
  • 可重试:临时性错误如 net.OpError(连接超时、拒绝)、url.Error(timeout、EOF)、500/502/503/504 —— 但建议加退避(exponential backoff),最多重试 2~3 次
  • 所有 error 都要记录原始 err.Error() 和 URL,否则排查时根本不知道卡在哪一环

真正难的不是并发模型,而是如何让每个请求既快又稳:连接复用是否生效、DNS 缓存有没有穿透、TLS 握手是否被干扰、目标站反爬策略怎么绕过——这些都得靠日志+指标+真实响应体分析,光靠 goroutine 数量解决不了。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang如何定义变量
golang如何定义变量

golang定义变量的方法:1、声明变量并赋予初始值“var age int =值”;2、声明变量但不赋初始值“var age int”;3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

182

2024.02.23

golang有哪些数据转换方法
golang有哪些数据转换方法

golang数据转换方法:1、类型转换操作符;2、类型断言;3、字符串和数字之间的转换;4、JSON序列化和反序列化;5、使用标准库进行数据转换;6、使用第三方库进行数据转换;7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

229

2024.02.23

golang常用库有哪些
golang常用库有哪些

golang常用库有:1、标准库;2、字符串处理库;3、网络库;4、加密库;5、压缩库;6、xml和json解析库;7、日期和时间库;8、数据库操作库;9、文件操作库;10、图像处理库。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

343

2024.02.23

golang和python的区别是什么
golang和python的区别是什么

golang和python的区别是:1、golang是一种编译型语言,而python是一种解释型语言;2、golang天生支持并发编程,而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

209

2024.03.05

golang是免费的吗
golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的开源编程语言,采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

394

2024.05.21

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

220

2025.06.09

golang相关判断方法
golang相关判断方法

本专题整合了golang相关判断方法,想了解更详细的相关内容,请阅读下面的文章。

193

2025.06.10

golang数组使用方法
golang数组使用方法

本专题整合了golang数组用法,想了解更多的相关内容,请阅读专题下面的文章。

397

2025.06.17

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

158

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 4.3万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号