0

0

Golang实现自动解析HTML中的静态资源路径并下载

P粉602998670

P粉602998670

发布时间:2026-02-13 10:19:55

|

522人浏览过

|

来源于php中文网

原创

提取src/href需用url.url.resolvereference解析相对路径,设http超时和user-agent,流式下载二进制,自定义transport调优连接池,用semaphore限并发,并对文件路径做clean及遍历校验。

golang实现自动解析html中的静态资源路径并下载

goquery 提取 srchref 时容易漏掉相对路径

HTML 里静态资源路径不全是绝对 URL,img[src]link[href]script[src] 常见相对路径(如 ./js/app.js../css/style.css/static/logo.png),直接拼接下载会 404。
必须结合页面原始 URL 做解析,不能只靠字符串拼接。
推荐用标准库 url.URLResolveReference 方法,它能正确处理各种相对路径逻辑:

  • 传入页面的原始 *url.URL(比如 https://example.com/blog/post.html
  • 对每个提取到的 srchref 字符串构造一个 *url.URL
  • 调用 baseURL.ResolveReference(refURL) 得到绝对地址

别手写 strings.HasPrefix 判断开头是 / 还是 ./——这种逻辑在嵌套路径或带查询参数的 URL 下极易出错。

http.Client 下载二进制资源前要设好 TimeoutUser-Agent

没设超时的 http.Client 遇到慢响应或挂起服务会卡死 goroutine;没设 User-Agent 的请求可能被 Nginx 或 CDN 直接拒收(返回 403),尤其对 .js.css 等静态资源。

  • &http.Client{Timeout: 10 * time.Second} 控制单次请求上限
  • req.Header.Set("User-Agent", "golang-fetcher/1.0") 加标识
  • 下载图片等二进制内容时,用 io.Copy 流式写入文件,别全读进内存(resp.Body 可能上百 MB)

示例关键片段:

resp, err := client.Do(req)<br>if err != nil { return }<br>defer resp.Body.Close()<br>out, _ := os.Create(filepath.Join(dir, filename))<br>io.Copy(out, resp.Body)

立即学习go语言免费学习笔记(深入)”;

OFFER快
OFFER快

首个全流程托管的 AI 求职 Agent(自动筛选、沟通、网申)

下载

并发下载时要注意 net/http 默认连接池限制

Go 默认 http.DefaultClient 的 Transport 对同一 host 最多复用 2 个空闲连接,且最多 100 个总连接。如果一次性并发抓 50 个资源,大量请求会排队等待连接,实际变成串行。

  • 显式配置 http.Transport
    tr := &http.Transport{<br>  MaxIdleConns:        100,<br>  MaxIdleConnsPerHost: 100,<br>  IdleConnTimeout:     30 * time.Second,<br>}
  • 避免用全局 http.DefaultClient,每个任务新建 client 或复用带定制 transport 的 client
  • semaphore 控制并发数(比如 ≤20),比无节制 goroutine 更稳

否则你会看到大量请求耗时突然跳到 30s+,其实是连接等待超时,不是网络慢。

保存文件前必须清理路径,防止 ../../../etc/passwd 类路径遍历

从 HTML 解析出的 src 可能含恶意路径(如 ../../config.json),直接 os.Create(path) 会写到任意目录。Go 没有内置“安全路径拼接”函数,得手动处理。

  • 对解析后的文件名做 filepath.Clean(),再检查是否以 ".." 开头或含 ".." 路径段
  • 更稳妥做法:提取最后一级文件名(filepath.Base(u.Path)),忽略原始路径结构
  • 如果必须保留目录结构(如 css/main.css),先 Clean 再确认结果仍在目标根目录下:
    absPath := filepath.Join(rootDir, cleanPath)<br>if !strings.HasPrefix(absPath, filepath.Clean(rootDir)+string(os.PathSeparator)) {<br>  // 拒绝写入<br>}

这个点最容易被跳过——本地测试时一切正常,一上线遇到恶意 HTML 就出事。

相关文章

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang如何定义变量
golang如何定义变量

golang定义变量的方法:1、声明变量并赋予初始值“var age int =值”;2、声明变量但不赋初始值“var age int”;3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

206

2024.02.23

golang有哪些数据转换方法
golang有哪些数据转换方法

golang数据转换方法:1、类型转换操作符;2、类型断言;3、字符串和数字之间的转换;4、JSON序列化和反序列化;5、使用标准库进行数据转换;6、使用第三方库进行数据转换;7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

235

2024.02.23

golang常用库有哪些
golang常用库有哪些

golang常用库有:1、标准库;2、字符串处理库;3、网络库;4、加密库;5、压缩库;6、xml和json解析库;7、日期和时间库;8、数据库操作库;9、文件操作库;10、图像处理库。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

346

2024.02.23

golang和python的区别是什么
golang和python的区别是什么

golang和python的区别是:1、golang是一种编译型语言,而python是一种解释型语言;2、golang天生支持并发编程,而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

212

2024.03.05

golang是免费的吗
golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的开源编程语言,采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

402

2024.05.21

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

322

2025.06.09

golang相关判断方法
golang相关判断方法

本专题整合了golang相关判断方法,想了解更详细的相关内容,请阅读下面的文章。

197

2025.06.10

golang数组使用方法
golang数组使用方法

本专题整合了golang数组用法,想了解更多的相关内容,请阅读专题下面的文章。

824

2025.06.17

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

24

2026.02.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.3万人学习

AngularJS教程
AngularJS教程

共24课时 | 3.6万人学习

CSS教程
CSS教程

共754课时 | 31万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号