Golang实现自动解析HTML中的静态资源路径并下载

P粉602998670

发布时间：2026-02-13 10:19:55

522人浏览过

来源于php中文网

原创

提取src/href需用url.url.resolvereference解析相对路径，设http超时和user-agent，流式下载二进制，自定义transport调优连接池，用semaphore限并发，并对文件路径做clean及遍历校验。

golang实现自动解析html中的静态资源路径并下载

用 `goquery` 提取 `src` 和 `href` 时容易漏掉相对路径

HTML 里静态资源路径不全是绝对 URL，img[src]、link[href]、script[src] 常见相对路径（如 ./js/app.js、../css/style.css、/static/logo.png），直接拼接下载会 404。
必须结合页面原始 URL 做解析，不能只靠字符串拼接。
推荐用标准库 url.URL 的 ResolveReference 方法，它能正确处理各种相对路径逻辑：

传入页面的原始 *url.URL（比如 https://example.com/blog/post.html）
对每个提取到的 src 或 href 字符串构造一个 *url.URL
调用 baseURL.ResolveReference(refURL) 得到绝对地址

别手写 strings.HasPrefix 判断开头是 / 还是 ./——这种逻辑在嵌套路径或带查询参数的 URL 下极易出错。

`http.Client` 下载二进制资源前要设好 `Timeout` 和 `User-Agent`

没设超时的 http.Client 遇到慢响应或挂起服务会卡死 goroutine；没设 User-Agent 的请求可能被 Nginx 或 CDN 直接拒收（返回 403），尤其对 .js、.css 等静态资源。

用 &http.Client{Timeout: 10 * time.Second} 控制单次请求上限
在 req.Header.Set("User-Agent", "golang-fetcher/1.0") 加标识
下载图片等二进制内容时，用 io.Copy 流式写入文件，别全读进内存（resp.Body 可能上百 MB）

示例关键片段：

resp, err := client.Do(req)<br>if err != nil { return }<br>defer resp.Body.Close()<br>out, _ := os.Create(filepath.Join(dir, filename))<br>io.Copy(out, resp.Body)

立即学习“go语言免费学习笔记（深入）”；

OFFER快

首个全流程托管的 AI 求职 Agent（自动筛选、沟通、网申）

下载

并发下载时要注意 `net/http` 默认连接池限制

Go 默认 http.DefaultClient 的 Transport 对同一 host 最多复用 2 个空闲连接，且最多 100 个总连接。如果一次性并发抓 50 个资源，大量请求会排队等待连接，实际变成串行。

显式配置 http.Transport：

tr := &http.Transport{<br>  MaxIdleConns:        100,<br>  MaxIdleConnsPerHost: 100,<br>  IdleConnTimeout:     30 * time.Second,<br>}

避免用全局 http.DefaultClient，每个任务新建 client 或复用带定制 transport 的 client
用 semaphore 控制并发数（比如 ≤20），比无节制 goroutine 更稳

否则你会看到大量请求耗时突然跳到 30s+，其实是连接等待超时，不是网络慢。

保存文件前必须清理路径，防止 `../../../etc/passwd` 类路径遍历

从 HTML 解析出的 src 可能含恶意路径（如 ../../config.json），直接 os.Create(path) 会写到任意目录。Go 没有内置“安全路径拼接”函数，得手动处理。

对解析后的文件名做 filepath.Clean()，再检查是否以 ".." 开头或含 ".." 路径段
更稳妥做法：提取最后一级文件名（filepath.Base(u.Path)），忽略原始路径结构

如果必须保留目录结构（如 css/main.css），先 Clean 再确认结果仍在目标根目录下：

absPath := filepath.Join(rootDir, cleanPath)<br>if !strings.HasPrefix(absPath, filepath.Clean(rootDir)+string(os.PathSeparator)) {<br>  // 拒绝写入<br>}

这个点最容易被跳过——本地测试时一切正常，一上线遇到恶意 HTML 就出事。

Go测试覆盖率是什么 Golang coverage统计方式

构建跨平台复用的页头页脚组件：HTML/CSS/JS 独立封装实践指南

如何使用Golang开发小型CRM系统_Golang客户关系管理系统实战

如何用Golang实现餐馆菜单管理系统_Golang数据存储与前后端交互项目

如何在Golang中进行代码覆盖率测试_Golang代码覆盖率分析与报告

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

html go golang golang nginx json Static 字符串 copy 并发 JS href http https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：使用Golang Validator进行结构体校验_Web请求参数验证最佳实践下一篇：暂无

作者最新文章

mysql触发器执行慢怎么解决_mysql性能调优思路

2026-02-13 09:40

如何在Golang中实现带权限控制的局域网文件共享

2026-02-13 09:41

详解TreeMap与ConcurrentSkipListMap的选型_单线程排序与并发排序

2026-02-13 09:41

mysql中使用复合索引提高查询效率

2026-02-13 09:41

螃蟹交易平台在线登录官网螃蟹交易平台官方交易市场主页

2026-02-13 09:42

CSS字体连字特性_font-variant-ligatures的视觉优化

2026-02-13 09:44

mysql如何设计留言板功能系统_mysql项目表结构

2026-02-13 09:45

Java中Stop The World(STW)现象解析_GC停顿对系统性能的影响说明

2026-02-13 09:46

什么是并发与并行的区别_高并发系统设计的核心概念说明

2026-02-13 09:47

干花生怎么炒不焦_小火慢炒与听声辨别熟度的技巧

2026-02-13 09:47

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

golang如何定义变量

golang定义变量的方法：1、声明变量并赋予初始值“var age int =值”；2、声明变量但不赋初始值“var age int”；3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

206

2024.02.23

golang有哪些数据转换方法

golang数据转换方法：1、类型转换操作符；2、类型断言；3、字符串和数字之间的转换；4、JSON序列化和反序列化；5、使用标准库进行数据转换；6、使用第三方库进行数据转换；7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

235

2024.02.23

golang常用库有哪些

golang常用库有：1、标准库；2、字符串处理库；3、网络库；4、加密库；5、压缩库；6、xml和json解析库；7、日期和时间库；8、数据库操作库；9、文件操作库；10、图像处理库。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

346

2024.02.23

golang和python的区别是什么

golang和python的区别是：1、golang是一种编译型语言，而python是一种解释型语言；2、golang天生支持并发编程，而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

212

2024.03.05

golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型，并具有垃圾回收功能的开源编程语言，采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

402

2024.05.21

golang结构体相关大全

本专题整合了golang结构体相关大全，想了解更多内容，请阅读专题下面的文章。

322

2025.06.09

golang相关判断方法

本专题整合了golang相关判断方法，想了解更详细的相关内容，请阅读下面的文章。

197

2025.06.10

golang数组使用方法

本专题整合了golang数组用法，想了解更多的相关内容，请阅读专题下面的文章。

824

2025.06.17

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

2026.02.12

热门下载

网站特效

网站源码

网站素材

前端模板

Golang实现自动解析HTML中的静态资源路径并下载

用 goquery 提取 src 和 href 时容易漏掉相对路径

http.Client 下载二进制资源前要设好 Timeout 和 User-Agent

并发下载时要注意 net/http 默认连接池限制

保存文件前必须清理路径，防止 ../../../etc/passwd 类路径遍历

用 `goquery` 提取 `src` 和 `href` 时容易漏掉相对路径

`http.Client` 下载二进制资源前要设好 `Timeout` 和 `User-Agent`

并发下载时要注意 `net/http` 默认连接池限制

保存文件前必须清理路径，防止 `../../../etc/passwd` 类路径遍历