0

0

如何在Golang中制作一个简单的爬虫并保存到Excel Go语言第三方库实战

P粉602998670

P粉602998670

发布时间:2026-03-08 09:00:42

|

600人浏览过

|

来源于php中文网

原创

colly 抓网页为空主因是默认不执行 javascript,vue/react 渲染内容需换 playwright-go;excel 导出推荐 excelize,注意字体设置、批量写入和避免并发写文件。

如何在golang中制作一个简单的爬虫并保存到excel go语言第三方库实战

colly 抓网页数据时为什么总是空?

多数人第一次用 colly 拿不到内容,不是选择器写错,而是没等页面加载完就结束了——colly 默认不执行 JavaScript,遇到 Vue/React 渲染的内容直接返回空 DOM。

实操建议:

  • 先用浏览器打开目标页,右键「查看页面源代码」,确认你要的数据是否在原始 HTML 里;不在的话,colly 无解,得换 cdpplaywright-go
  • 检查选择器是否带空格或大小写错误,比如 div.titlediv .title 完全不同
  • c.OnError(...) 打印错误,常见是 DNS 失败或被 403 拦截,这时候要设 User-Agent
c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"

保存到 Excel 用 excelize 还是 tealeg/xlsx

excelize 是当前最活跃、兼容性最好的 Go Excel 库,支持 .xlsx 写入/读取、公式、样式、流式写入;tealeg/xlsx 已归档,新项目别碰。

关键差异点:

立即学习go语言免费学习笔记(深入)”;

LogoAi
LogoAi

利用AI来设计你喜欢的Logo和品牌标志

下载
  • excelize 的 sheet 名不能含 [ ] * ? / \,否则 f.SaveAs()"invalid sheet name"
  • 写大数据量(>10 万行)时,别用 f.SetCellValue() 逐行调用,改用 f.SetSheetRow() 批量写入,性能差 5–10 倍
  • 中文字段导出乱码?不是编码问题,是字体没设:必须调 f.SetCellStyle("Sheet1", "A1", "A1", styleID) 并提前用 f.NewStyle() 指定字体如 "SimSun""Arial Unicode MS"

爬虫 + Excel 流程中哪些地方容易 panic?

最常崩在三处:并发写文件、空指针解引用、Excel 单元格超长截断。

具体避坑方式:

  • 多个 goroutine 同时调 f.SaveAs("out.xlsx")?必 panic。解决方法:所有数据收集完再统一写,或用 sync.Mutex 包住 f.SaveAs
  • colly.Collector.Find(...).Text() 返回空字符串,直接传给 f.SetCellValue() 没问题,但若后续做 strings.Split(text, ",")[0] 就会 panic——务必先判空或用 if len(s) > 0
  • Excel 单元格最多存 32767 字符,超长内容会被静默截断。如果业务上不能丢数据,要么拆行,要么存本地文本文件,别硬塞进 Excel

本地跑通了,部署到 Linux 服务器却打不开生成的 Excel?

不是权限问题,大概率是缺少字体导致样式渲染失败,Excel 打开报「发现不可读内容」,点「是」后数据还在,但格式全丢。

验证和修复步骤:

  • 在服务器跑 fc-list | grep -i simsun,没输出说明缺宋体;Ubuntu 可装 fonts-wqy-zenhei,CentOS 装 liberation-fonts-common
  • 代码里别写死 "SimSun",改用 "Liberation Sans""DejaVu Sans" 这类开源字体,跨平台稳
  • 生成完用 file out.xlsx 确认是 ZIP 格式(Excel 本质是 zip),如果是空文件或损坏,八成是 f.Close() 没调用,defer 里漏写了

真正麻烦的是反爬策略升级和 Excel 样式细节——比如合并单元格跨行后插入新行会错位,这种得边测边调,没法一劳永逸。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang如何定义变量
golang如何定义变量

golang定义变量的方法:1、声明变量并赋予初始值“var age int =值”;2、声明变量但不赋初始值“var age int”;3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

210

2024.02.23

golang有哪些数据转换方法
golang有哪些数据转换方法

golang数据转换方法:1、类型转换操作符;2、类型断言;3、字符串和数字之间的转换;4、JSON序列化和反序列化;5、使用标准库进行数据转换;6、使用第三方库进行数据转换;7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

246

2024.02.23

golang常用库有哪些
golang常用库有哪些

golang常用库有:1、标准库;2、字符串处理库;3、网络库;4、加密库;5、压缩库;6、xml和json解析库;7、日期和时间库;8、数据库操作库;9、文件操作库;10、图像处理库。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

355

2024.02.23

golang和python的区别是什么
golang和python的区别是什么

golang和python的区别是:1、golang是一种编译型语言,而python是一种解释型语言;2、golang天生支持并发编程,而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

214

2024.03.05

golang是免费的吗
golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的开源编程语言,采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

407

2024.05.21

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

470

2025.06.09

golang相关判断方法
golang相关判断方法

本专题整合了golang相关判断方法,想了解更详细的相关内容,请阅读下面的文章。

200

2025.06.10

golang数组使用方法
golang数组使用方法

本专题整合了golang数组用法,想了解更多的相关内容,请阅读专题下面的文章。

1377

2025.06.17

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

23

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 20.5万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号