0

0

如何下载.html_下载网页HTML源文件的方法【详解】

看不見的法師

看不見的法師

发布时间:2026-01-03 20:51:08

|

237人浏览过

|

来源于php中文网

原创

浏览器右键“另存为”仅保存HTML文档本身,不包含CSS、JS、图片等外部资源,导致样式错乱、功能失效;Chrome/Edge默认保存为“Webpage, Complete”但受限于同域和静态资源,Firefox默认仅保存HTML;curl/wget适用于获取原始HTML源码,Puppeteer可保存JS渲染后的完整DOM。

如何下载.html_下载网页html源文件的方法【详解】

直接右键“另存为”保存的 .html 文件,往往不包含 CSS、JS、图片等外部资源,打开后样式错乱、功能失效——这不是下载失败,而是默认行为只保存 HTML 文档本身。

浏览器右键“另存为”保存的是什么

这个操作实际调用的是浏览器的 Save Page As 功能,保存类型由浏览器决定:

  • Chrome / Edge 默认保存为 Webpage, Complete(含子文件夹),但仅对同域、非动态生成的资源有效;遇到 CDN 图片、内联 SVG、fetch 加载的内容,仍会丢失
  • Firefox 保存为 Web Page, HTML Only 是默认选项,连 CSS 链接都不会下载
  • 所有浏览器都无法保存通过 JavaScript 动态插入的 DOM 节点(比如 React/Vue 渲染后的页面)

用 curl 或 wget 命令行下载原始 HTML 源码

适用于想获取服务端返回的“未经 JS 渲染”的原始 HTML,比如爬虫分析、SEO 检查、备案存档。

关键点:绕过浏览器渲染,直取 HTTP 响应体。

立即学习前端免费学习笔记(深入)”;

绘蛙
绘蛙

电商场景的AI创作平台,无需高薪聘请商拍和文案团队,使用绘蛙即可低成本、批量创作优质的商拍图、种草文案

下载

推荐用 wget,它比 curl 更适合处理 HTML 中的相对链接重写:

wget --no-parent --convert-links --page-requisites --no-clobber --restrict-file-names=windows https://example.com/page.html
  • --page-requisites 下载 CSS/JS/图片等依赖资源
  • --convert-links 重写本地链接,让离线打开时能正确跳转
  • --no-parent 防止 wget 顺着 ../ 跑到上层目录
  • 注意:如果目标页面使用了 CSP 或 Referer 校验,可能需要加 --header="Referer: https://example.com/"

用 Puppeteer 保存完整渲染后的 HTML(含动态内容)

当页面严重依赖 JS(如单页应用、懒加载列表、登录后内容),必须用无头浏览器执行 JS 后再保存。

核心逻辑:启动 Chromium → 访问 URL → 等待网络空闲 + 可选等待特定元素 → 获取 document.documentElement.outerHTML → 写入文件。

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://example.com', { waitUntil: 'networkidle2' });
  const html = await page.content();
  require('fs').writeFileSync('page.html', html);
  await browser.close();
})();
  • networkidle2 表示连续 500ms 最多 2 个网络连接活跃,比 domcontentloaded 更稳妥
  • 若页面有登录态,需提前用 page.setUserAgent()page.setCookie() 注入凭证
  • 导出的 HTML 不自动下载资源,如需离线可用 page.pdf() 或配合 page.screenshot() + page.coverage 分析资源再补抓

容易被忽略的关键细节

真正能“还原网页”的下载,从来不是单一动作:

  • 静态 HTML + 外链资源 ≠ 页面真实表现(字体、Web Worker、Service Worker 不会被保存)
  • 保存下来的 .html 文件若含 blob:data: 链接,这些内容已内联或生成于内存,无法通过 wget/puppeteer 直接落地为文件
  • HTTPS 页面中混有 HTTP 资源(mixed content),浏览器会阻止加载,但 wget/puppeteer 默认不拦截,导致保存的 HTML 在离线时看似完整、实则缺内容
  • 部分网站通过 document.writeeval() 注入关键 HTML 片段,这类代码在 Puppeteer 中默认执行,但若禁用了 JS(page.setJavaScriptEnabled(false)),就会彻底丢失

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

1058

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

840

2023.11.06

edge是什么浏览器
edge是什么浏览器

Edge是一款由Microsoft开发的网页浏览器,是Windows 10操作系统中默认的浏览器,其目标是提供更快、更安全、更现代化的浏览器体验。本专题为大家提供edge浏览器相关的文章、下载、课程内容,供大家免费下载体验。

1733

2023.08.21

IE浏览器自动跳转EDGE如何恢复
IE浏览器自动跳转EDGE如何恢复

ie浏览器自动跳转edge的解决办法:1、更改默认浏览器设置;2、阻止edge浏览器的自动跳转;3、更改超链接的默认打开方式;4、禁用“快速网页查看器”;5、卸载edge浏览器;6、检查第三方插件或应用程序等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

397

2024.03.05

如何解决Edge打开但没有标题的问题
如何解决Edge打开但没有标题的问题

若 Microsoft Edge 浏览器打开后无标题(窗口空白或标题栏缺失),可尝试以下方法解决: 重启 Edge:关闭所有窗口,重新启动浏览器。 重置窗口布局:右击任务栏 Edge 图标 → 选择「最大化」或「还原」。 禁用扩展:进入 edge://extensions 临时关闭插件测试。 重置浏览器设置:前往 edge://settings/reset 恢复默认配置。 更新或重装 Edge:检查最新版本,或通过控制面板修复

1038

2025.04.24

curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

455

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

183

2023.10.30

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

530

2023.06.20

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.9万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

CSS教程
CSS教程

共754课时 | 42.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号