如何获取html文本_从网页或代码中提取HTML文本内容【提取】

看不見的法師

发布时间：2025-12-16 19:35:42

1014人浏览过

来源于php中文网

原创

提取网页纯文本有五种方法：一、浏览器开发者工具手动复制；二、Python BeautifulSoup库解析；三、JavaScript控制台执行；四、命令行工具w3m/lynx转换；五、正则表达式剥离标签。

如何获取html文本_从网页或代码中提取html文本内容【提取】

如果您需要从网页源代码或已有的HTML文件中提取纯文本内容，可能是因为要进行内容分析、数据清洗或信息汇总。以下是几种可行的提取方法：

一、使用浏览器开发者工具手动复制

该方法适用于单次、小规模提取，无需编程环境，直接利用浏览器内置功能获取渲染后页面的可见文本。

1、在目标网页上右键选择“查看页面源代码”或按快捷键 Ctrl+U（Windows）/ Cmd+U（Mac）打开源码视图。

2、若需提取渲染后的文本（即用户实际看到的内容），按 F12 打开开发者工具，切换到“Elements”面板。

立即学习“前端免费学习笔记（深入）”；

3、按 Ctrl+A 全选当前显示的 DOM 结构，再按 Ctrl+Shift+C 进入元素选择模式，点击任意文本区域定位对应节点。

4、右键目标元素，在弹出菜单中选择“Edit as HTML”，然后手动删除所有标签，仅保留文字内容。

5、或切换至“Console”面板，输入 document.body.innerText 并回车，控制台将输出去除HTML标签后的纯文本。

二、使用Python的BeautifulSoup库解析提取

该方法适合批量处理HTML文件或网络抓取后的响应内容，能精准剥离标签并保留段落结构与换行逻辑。

1、确保已安装 requests 和 beautifulsoup4：执行命令 pip install requests beautifulsoup4。

2、编写脚本读取本地HTML文件：with open("page.html", "r", encoding="utf-8") as f: html_content = f.read()。

3、创建BeautifulSoup对象：from bs4 import BeautifulSoup; soup = BeautifulSoup(html_content, "html.parser")。

4、调用 soup.get_text() 方法获取全部文本，或使用 soup.body.get_text() 限定于主体部分。

5、为保留段落分隔，可传入参数：soup.get_text(separator="\n", strip=True)。

三、使用JavaScript在浏览器控制台执行提取

该方法适用于快速对当前打开网页执行一次性文本提取，不依赖外部工具，直接运行于页面上下文环境中。

DreamStudio

SD兄弟产品！AI 图像生成器

下载

1、打开目标网页，按 F12 进入开发者工具，切换至“Console”标签页。

2、输入以下代码并回车：Array.from(document.querySelectorAll('*')).map(el => el.textContent).join(' ').replace(/\s+/g, ' ').trim()。

3、如需保留换行与块级结构，改用：document.body.textContent.replace(/[\t\r\n]+/g, '\n').replace(/\n\s*\n/g, '\n\n')。

4、提取完成后，右键控制台输出结果，选择“Copy string”保存文本。

四、使用命令行工具w3m或lynx转换HTML为文本

该方法适用于Linux/macOS系统终端环境，适合自动化脚本集成，无需图形界面即可完成转换。

1、安装w3m：在Ubuntu/Debian中执行 sudo apt install w3m；macOS使用Homebrew执行 brew install w3m。

2、将本地HTML文件转为文本：w3m -dump index.html > output.txt。

3、若处理远程URL，直接运行：w3m -dump https://example.com > page.txt。

4、使用lynx替代方案（需提前安装）：lynx -dump -nolist index.html > output.txt。

五、使用正则表达式简单剥离HTML标签

该方法仅适用于结构简单、无嵌套脚本或CDATA内容的HTML片段，不推荐用于复杂网页，存在误删风险。

1、在支持正则的语言中（如Python），定义基础匹配模式：import re; clean_text = re.sub(r']+>', '', html_string)。

2、为避免残留空白，追加清理：clean_text = re.sub(r'\s+', ' ', clean_text).strip()。

3、若HTML中含实体字符（如 &、<），需进一步解码：import html; clean_text = html.unescape(clean_text)。

4、注意该方式无法识别注释、script/style标签内容，可能导致文本污染，应配合白名单标签过滤使用。

html怎么快捷多行注释_html多行注释快捷键【秘籍】

HTML开发环境怎样配置Apache_HTML开发环境配置Apache步骤【教程】

html文档打开方式一览_html文档怎么打开【指南】

xlhtml怎么用_xlhtml工具的使用方法详细介绍【技巧】

html怎么变成注释_html代码快速注释转换【快捷】

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：html5如何禁用表情_HTML5表情禁用设置与屏蔽技巧方法【指南】下一篇：html5如何取代flash_HTML5全面取代Flash技术实现步骤【取代指南】

作者最新文章

2026 AWE双馆联动！LG 电子“以智结情”全景演绎 AI 智慧生活新图景

2026-03-13 14:20

Zoom怎么启用双显示器_Zoom演讲者视图分屏显示教程

2026-03-13 14:34

笔趣阁怎么开启小窗_笔趣阁视频悬浮窗播放设置

2026-03-13 14:40

ppt点击出现音乐怎么设置_ppt点击鼠标才播放音乐【技巧】

2026-03-13 14:56

QClaw怎么让AI帮我找文献并生成APA格式引用_QClaw学术研究技能【方法】

2026-03-13 15:00

抖音怎么删除自己的作品_抖音批量删除视频方法步骤

2026-03-13 15:24

模板继承和布局怎么使用_模板布局重用【方法】

2026-03-13 15:50

ChatGPT批量写工作总结怎么实现_高效提示方法是什么【介绍】

2026-03-13 16:02

OpenClaw多任务处理_OpenClaw多任务方法【操作】

2026-03-13 16:02

HTML文档结构如何实现语义化_提升可访问性的代码结构设计【方法】

2026-03-13 16:13

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

531

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

767

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

219

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

357

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

245

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

548

2023.12.06

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

热门下载

网站特效

网站源码

网站素材

前端模板