0

0

如何使用Golang实现并发爬虫_Golang并发爬虫优化与任务调度

P粉602998670

P粉602998670

发布时间:2026-02-08 12:49:20

|

631人浏览过

|

来源于php中文网

原创

核心是控制并发规模而非盲目启goroutine;用带缓冲chan作信号量(如sem := make(chan struct{}, 10))限制同时活跃worker数,避免瞬间启动过多goroutine导致DNS耗尽、连接超时或429错误。

如何使用golang实现并发爬虫_golang并发爬虫优化与任务调度

Go 语言实现并发爬虫本身不难,难在控制并发规模、避免被封、处理任务失败与重试、以及调度逻辑不阻塞——核心不是“怎么开 goroutine”,而是“怎么管住它们”。

sync.WaitGroup + chan 控制并发数,别直接起几百个 goroutine

常见错误是遍历 URL 列表时对每个 URL 起一个 go crawl(url),结果瞬间启动上千 goroutine,DNS 耗尽、连接超时、目标站直接 429。正确做法是用带缓冲的 chan 做信号量,限制同时活跃的 worker 数量:

示例关键结构:

sem := make(chan struct{}, 10) // 最多 10 并发
for _, url := range urls {
    sem <- struct{}{} // 阻塞直到有空位
    go func(u string) {
        defer func() { <-sem }() // 释放
        crawl(u)
    }(url)
}

注意:sem 必须是值传递或闭包捕获正确变量,否则所有 goroutine 共享同一 urldefer 位置必须在 goroutine 内部,不能放在外层循环里。

立即学习go语言免费学习笔记(深入)”;

context.Context 是唯一靠谱的超时与取消机制

HTTP 请求、解析、甚至 DNS 查询都必须绑定 context.WithTimeout,否则单个卡死请求会拖垮整个 worker 池。别用 time.AfterFunc 或全局 timer 杀 goroutine——无法清理资源,且可能引发 panic。

典型用法:

ctx, cancel := context.WithTimeout(context.Background(), 10*time.Second)
defer cancel()
req, _ := http.NewRequestWithContext(ctx, "GET", url, nil)
resp, err := client.Do(req)
if ctx.Err() == context.DeadlineExceeded {
    log.Printf("timeout on %s", url)
    return
}

所有下游调用(如 io.ReadAllhtml.Parse)也应检查 ctx.Err(),尤其解析大页面时容易卡住。

SciMaster
SciMaster

全球首个通用型科研AI智能体

下载

map[string]struct{} 去重比布隆过滤器更实际

初学者常过早引入 gobitsetroaring 做去重,但实际场景中,URL 去重要求不高(不需亿级)、内存够用(百万 URL ≈ 100MB),纯内存 map[string]struct{} 更简单可靠:

  • 插入和查询都是 O(1),无哈希碰撞风险(Go map 已优化)
  • 无需序列化/反序列化,避免 encoding/gob 的 panic 边界
  • 配合 sync.Map 可安全并发读写,但注意:只在读多写少时用;若写频繁,用 mutex + map 更可控

去重 key 推荐标准化:去掉 fragment、统一 scheme、小写 host,例如 normalize("https://EXAMPLE.COM/foo#bar") → "https://example.com/foo"

任务队列别自己造轮子,用 channel + select 实现轻量调度

不需要 Redis 或 Kafka——简单爬虫的任务调度,靠一个 chan *Task 就够。难点在于如何让 worker 主动“要任务”,而不是被动“被派任务”:

推荐模式:

tasks := make(chan *Task, 1000)
for i := 0; i < 5; i++ {
    go worker(tasks)
}
// 生产者往 tasks 发送新任务
tasks <- &Task{URL: "https://a.com"}

worker 内部用 select 支持退出信号、超时、任务接收三路复用:

func worker(tasks <-chan *Task) {
    for {
        select {
        case t, ok := <-tasks:
            if !ok { return }
            process(t)
        case <-time.After(30 * time.Second):
            // 空闲太久,可选退出或上报
            return
        }
    }
}

注意:tasks channel 容量不宜过大(如设为 10000),否则内存堆积、OOM 风险高;也不宜过小(如 1),导致生产者频繁阻塞。

真正复杂的是失败重试策略:不要固定重试 3 次,而应按 HTTP 状态码分级(404 不重试,503 指数退避,连接拒绝加 jitter),这部分逻辑必须内聚在 process() 里,不能甩给调度层。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang如何定义变量
golang如何定义变量

golang定义变量的方法:1、声明变量并赋予初始值“var age int =值”;2、声明变量但不赋初始值“var age int”;3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

184

2024.02.23

golang有哪些数据转换方法
golang有哪些数据转换方法

golang数据转换方法:1、类型转换操作符;2、类型断言;3、字符串和数字之间的转换;4、JSON序列化和反序列化;5、使用标准库进行数据转换;6、使用第三方库进行数据转换;7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

232

2024.02.23

golang常用库有哪些
golang常用库有哪些

golang常用库有:1、标准库;2、字符串处理库;3、网络库;4、加密库;5、压缩库;6、xml和json解析库;7、日期和时间库;8、数据库操作库;9、文件操作库;10、图像处理库。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

344

2024.02.23

golang和python的区别是什么
golang和python的区别是什么

golang和python的区别是:1、golang是一种编译型语言,而python是一种解释型语言;2、golang天生支持并发编程,而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

211

2024.03.05

golang是免费的吗
golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的开源编程语言,采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

399

2024.05.21

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

282

2025.06.09

golang相关判断方法
golang相关判断方法

本专题整合了golang相关判断方法,想了解更详细的相关内容,请阅读下面的文章。

196

2025.06.10

golang数组使用方法
golang数组使用方法

本专题整合了golang数组用法,想了解更多的相关内容,请阅读专题下面的文章。

681

2025.06.17

Golang处理数据库错误教程合集
Golang处理数据库错误教程合集

本专题整合了Golang数据库错误处理方法、技巧、管理策略相关内容,阅读专题下面的文章了解更多详细内容。

61

2026.02.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 4.8万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号