用colly而非手动组合http.Client+goquery,因其内置反爬、重试、并发控制、去重、Cookie管理及robots.txt遵循等能力;但不支持JS渲染,需注意v2兼容性、状态码检查、合理限速与数据缓冲。

为什么用 colly 而不是自己写 http.Client + goquery
因为反爬、重试、并发控制、请求去重、Cookie 管理这些事,自己拼凑容易漏掉边界。比如你手动发请求后没自动处理 302 跳转,或没按 robots.txt 限制爬取路径,colly 默认就做了。它底层封装了 http.Client 和 goquery,但提供了统一的回调钩子和上下文管理。
常见错误现象:colly 默认不自动处理 JavaScript 渲染内容(如 Vue/React 动态加载),误以为“页面没抓到数据”其实是前端渲染导致的;还有人直接在 OnHTML 里开 goroutine 并发请求,结果触发竞态或被目标站封 IP。
- 使用场景:静态 HTML 页面批量采集(新闻列表、商品标题、博客摘要)
- 性能影响:默认并发是 1,需显式调用
c.Limit(&colly.LimitRule{DomainGlob: "*", Parallelism: 5})才能并发 - 兼容性注意:v2 版本要求 Go 1.16+,且
OnXML和OnRequest的参数签名和 v1 不同,升级时容易 panic
OnHTML 抓不到元素?先检查选择器和响应状态
最常踩的坑是 selector 写对了,但实际返回的是 403、503 或登录跳转页——colly 不会报错,只是默默执行空回调。必须加 OnResponse 或 OnError 观察真实响应。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- 在
OnRequest里打印req.URL.String(),确认发出去的地址没错(尤其注意 URL 编码、末尾斜杠差异) - 用
OnResponse检查resp.StatusCode,非 200 时记录日志,避免静默失败 - selector 优先用 class 名而非嵌套路径,例如
"div.post-title"比"body > div#main > article h1"更耐改 - 如果目标页有分页,别在
OnHTML里直接c.Visit()下一页链接,应先提取 URL 到变量,再在OnScraped后统一调度,防止递归过深或重复入队
如何绕过基础反爬:User-Agent、Referer 和延迟
很多小站只靠检查 User-Agent 和 Referer 拦截脚本请求。colly 提供了简单方式注入,但要注意时机——必须在请求发出前设置,不能在 OnResponse 里补。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- 全局设置:
c.UserAgent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) ..." - 按域名设 Referer:
c.OnRequest(func(r *colly.Request) { r.Headers.Set("Referer", "https://example.com/") }) - 别用
time.Sleep做固定延迟,改用c.Limit(&colly.LimitRule{Delay: 1 * time.Second}),它作用于每个 domain 的请求队列,更可控 - 如果目标站校验 Cookie 或 JS Token,
colly本身不执行 JS,此时得换chromedp或加 API 接口分析,硬上colly会一直 401
保存数据时别直接写文件,先缓冲再落盘
高频抓取时每条数据都 os.WriteFile 一次,IO 开销大还容易卡住整个 crawler。更稳的做法是攒一批再批量写,同时避免多个 goroutine 并发写同一个文件引发冲突。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- 用
sync.Map或带缓冲的 channel 收集结构体(如type Article { Title string; URL string }) - 在
OnScraped回调里触发缓冲 flush,或用定时器每 5 秒 dump 一次 - 写文件前确保目录存在:
os.MkdirAll("data", 0755),否则第一次运行就 panic - 导出格式优先选 JSON Lines(每行一个 JSON 对象),比单个大 JSON 更易流式处理,也方便后续用
jq或 Python pandas 读取
真正麻烦的从来不是怎么写第一个 c.Visit(),而是当目标站把列表页改成无限滚动、详情页加上时间戳签名、或者突然返回压缩过的 HTML 时,你得快速判断该修 selector、换渲染方案,还是干脆放弃这个源。这些没法靠框架自动解决。










