
本文介绍如何用 `sync.waitgroup` 替代阻塞式 channel 信号机制,安全、可靠地等待所有爬虫 goroutine 完成,避免死锁和竞态问题。
在构建并发 Web 爬虫时,一个常见误区是依赖“单次发送的 done channel”(如 chan bool)来通知主 goroutine 任务结束。正如原始代码所示:当 queue 函数在无待处理任务且 currentJobs == 0 时尝试向 stop
根本问题在于:channel 信号无法表达“所有工作者已彻底退出”的语义;它只是一次性通信,而爬虫任务存在生产者-消费者链路(queue → workers → queue),状态分散在多个 goroutine 中。此时,sync.WaitGroup 是更合适、更符合 Go 并发哲学的解决方案。
WaitGroup 通过原子计数跟踪活跃 goroutine 数量,天然支持“工作启动即注册、工作完成即注销、主协程阻塞等待归零”的生命周期管理。以下是重构后的核心实践:
package main
import (
"fmt"
"sync"
"time"
)
type Job int
func worker(in <-chan Job, out chan<- Job, wg *sync.WaitGroup) {
defer wg.Done() // 确保无论何种退出路径都调用 Done()
for job := range in {
if job%2 == 0 {
out <- 100*job + 5
out <- 100*job + 3
out <- 100*job + 1
}
// 模拟网络延迟(可选)
time.Sleep(10 * time.Millisecond)
}
}
func queue(toWorkers chan<- Job, fromWorkers <-chan Job, init Job, wg *sync.WaitGroup) {
var list []Job
var currentJobs int
done := make(map[Job]bool)
list = append(list, init)
// 启动后立即向工作通道发送初始任务
go func() {
for _, j := range list {
toWorkers <- j
currentJobs++
}
close(toWorkers) // 所有初始任务发送完毕后关闭输入通道
}()
// 持续消费 worker 输出并分发新任务
for currentJobs > 0 {
select {
case job, ok := <-fromWorkers:
if !ok {
return // out channel 已关闭,退出
}
currentJobs--
if !done[job] {
done[job] = true
list = append(list, job)
toWorkers <- job // 分发新发现的任务
currentJobs++
}
}
}
}
func main() {
const maxWorkers = 3
in := make(chan Job, 10)
out := make(chan Job, 10)
var wg sync.WaitGroup
// 启动 queue(负责任务调度与发现)
wg.Add(1)
go func() {
defer wg.Done()
queue(in, out, 0, &wg)
}()
// 启动 worker(固定数量)
for i := 0; i < maxWorkers; i++ {
wg.Add(1)
go worker(in, out, &wg)
}
// 主 goroutine 等待所有任务完成
fmt.Println("Crawling started...")
wg.Wait()
fmt.Println("\n✅ Crawl job completed successfully!")
}关键改进点说明:
- ✅ WaitGroup 全局计数:wg.Add(1) 在每个 goroutine 启动前调用,defer wg.Done() 确保退出时自动减计数,主 goroutine 通过 wg.Wait() 阻塞直到全部归零;
- ✅ 通道关闭时机明确:in 通道由 queue 内部 goroutine 在初始任务发送完毕后显式 close(),worker 使用 for range in 安全退出,避免 range 在未关闭通道上永久阻塞;
- ✅ 避免 select 死锁陷阱:原始代码中 select 的 send 分支依赖 len(list)>0,但未处理 toWorkers 已关闭的情况;新结构将发送逻辑解耦为独立 goroutine,逻辑更清晰;
- ✅ 资源安全:所有 goroutine 均通过 defer wg.Done() 保证计数器更新,即使发生 panic 也能正确释放。
⚠️ 注意事项:切勿在 WaitGroup 上调用 Add() 与 Done() 跨 goroutine 竞争(如在循环中 go func(){wg.Add(1); ...}()),应确保 Add() 总是在 go 语句之前执行;同时,WaitGroup 不能被复制,需传指针。
综上,sync.WaitGroup 是 Go 中协调多 goroutine 生命周期的标准、高效、无死锁方案。相比手工管理 done channel,它语义明确、错误容忍度高,是构建健壮爬虫、管道(pipeline)或批处理系统的首选同步原语。










