0

0

如何在 Go 爬虫中使用同步原语优雅地通知任务完成

聖光之護

聖光之護

发布时间:2026-02-06 22:51:32

|

339人浏览过

|

来源于php中文网

原创

如何在 Go 爬虫中使用同步原语优雅地通知任务完成

本文介绍如何用 `sync.waitgroup` 替代阻塞式 channel 信号机制,安全、可靠地等待所有爬虫 goroutine 完成,避免死锁和竞态问题。

在构建并发 Web 爬虫时,一个常见误区是依赖“单次发送的 done channel”(如 chan bool)来通知主 goroutine 任务结束。正如原始代码所示:当 queue 函数在无待处理任务且 currentJobs == 0 时尝试向 stop

根本问题在于:channel 信号无法表达“所有工作者已彻底退出”的语义;它只是一次性通信,而爬虫任务存在生产者-消费者链路(queue → workers → queue),状态分散在多个 goroutine 中。此时,sync.WaitGroup 是更合适、更符合 Go 并发哲学的解决方案。

WaitGroup 通过原子计数跟踪活跃 goroutine 数量,天然支持“工作启动即注册、工作完成即注销、主协程阻塞等待归零”的生命周期管理。以下是重构后的核心实践:

语鹦学舌
语鹦学舌

三步生成专属AI数字人分身,文字秒变视频

下载
package main

import (
    "fmt"
    "sync"
    "time"
)

type Job int

func worker(in <-chan Job, out chan<- Job, wg *sync.WaitGroup) {
    defer wg.Done() // 确保无论何种退出路径都调用 Done()
    for job := range in {
        if job%2 == 0 {
            out <- 100*job + 5
            out <- 100*job + 3
            out <- 100*job + 1
        }
        // 模拟网络延迟(可选)
        time.Sleep(10 * time.Millisecond)
    }
}

func queue(toWorkers chan<- Job, fromWorkers <-chan Job, init Job, wg *sync.WaitGroup) {
    var list []Job
    var currentJobs int
    done := make(map[Job]bool)

    list = append(list, init)

    // 启动后立即向工作通道发送初始任务
    go func() {
        for _, j := range list {
            toWorkers <- j
            currentJobs++
        }
        close(toWorkers) // 所有初始任务发送完毕后关闭输入通道
    }()

    // 持续消费 worker 输出并分发新任务
    for currentJobs > 0 {
        select {
        case job, ok := <-fromWorkers:
            if !ok {
                return // out channel 已关闭,退出
            }
            currentJobs--
            if !done[job] {
                done[job] = true
                list = append(list, job)
                toWorkers <- job // 分发新发现的任务
                currentJobs++
            }
        }
    }
}

func main() {
    const maxWorkers = 3
    in := make(chan Job, 10)
    out := make(chan Job, 10)
    var wg sync.WaitGroup

    // 启动 queue(负责任务调度与发现)
    wg.Add(1)
    go func() {
        defer wg.Done()
        queue(in, out, 0, &wg)
    }()

    // 启动 worker(固定数量)
    for i := 0; i < maxWorkers; i++ {
        wg.Add(1)
        go worker(in, out, &wg)
    }

    // 主 goroutine 等待所有任务完成
    fmt.Println("Crawling started...")
    wg.Wait()
    fmt.Println("\n✅ Crawl job completed successfully!")
}

关键改进点说明:

  • WaitGroup 全局计数:wg.Add(1) 在每个 goroutine 启动前调用,defer wg.Done() 确保退出时自动减计数,主 goroutine 通过 wg.Wait() 阻塞直到全部归零;
  • 通道关闭时机明确:in 通道由 queue 内部 goroutine 在初始任务发送完毕后显式 close(),worker 使用 for range in 安全退出,避免 range 在未关闭通道上永久阻塞;
  • 避免 select 死锁陷阱:原始代码中 select 的 send 分支依赖 len(list)>0,但未处理 toWorkers 已关闭的情况;新结构将发送逻辑解耦为独立 goroutine,逻辑更清晰;
  • 资源安全:所有 goroutine 均通过 defer wg.Done() 保证计数器更新,即使发生 panic 也能正确释放。
⚠️ 注意事项:切勿在 WaitGroup 上调用 Add() 与 Done() 跨 goroutine 竞争(如在循环中 go func(){wg.Add(1); ...}()),应确保 Add() 总是在 go 语句之前执行;同时,WaitGroup 不能被复制,需传指针。

综上,sync.WaitGroup 是 Go 中协调多 goroutine 生命周期的标准、高效、无死锁方案。相比手工管理 done channel,它语义明确、错误容忍度高,是构建健壮爬虫、管道(pipeline)或批处理系统的首选同步原语。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang如何定义变量
golang如何定义变量

golang定义变量的方法:1、声明变量并赋予初始值“var age int =值”;2、声明变量但不赋初始值“var age int”;3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

184

2024.02.23

golang有哪些数据转换方法
golang有哪些数据转换方法

golang数据转换方法:1、类型转换操作符;2、类型断言;3、字符串和数字之间的转换;4、JSON序列化和反序列化;5、使用标准库进行数据转换;6、使用第三方库进行数据转换;7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

231

2024.02.23

golang常用库有哪些
golang常用库有哪些

golang常用库有:1、标准库;2、字符串处理库;3、网络库;4、加密库;5、压缩库;6、xml和json解析库;7、日期和时间库;8、数据库操作库;9、文件操作库;10、图像处理库。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

344

2024.02.23

golang和python的区别是什么
golang和python的区别是什么

golang和python的区别是:1、golang是一种编译型语言,而python是一种解释型语言;2、golang天生支持并发编程,而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

210

2024.03.05

golang是免费的吗
golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的开源编程语言,采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

398

2024.05.21

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

282

2025.06.09

golang相关判断方法
golang相关判断方法

本专题整合了golang相关判断方法,想了解更详细的相关内容,请阅读下面的文章。

196

2025.06.10

golang数组使用方法
golang数组使用方法

本专题整合了golang数组用法,想了解更多的相关内容,请阅读专题下面的文章。

621

2025.06.17

Golang处理数据库错误教程合集
Golang处理数据库错误教程合集

本专题整合了Golang数据库错误处理方法、技巧、管理策略相关内容,阅读专题下面的文章了解更多详细内容。

2

2026.02.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 4.7万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号