0

0

golang怎么去除html

PHPz

PHPz

发布时间:2023-04-27 09:08:05

|

1458人浏览过

|

来源于php中文网

原创

go 语言实战:如何去除 html 标签?

在 Web 开发中,我们常常需要去除 HTML 标签以获取纯文本内容,例如对评论、文章等内容的分析处理。对于这个需求,Go 语言提供了多种方法,本文将为你介绍其中几种方法。

方法一:使用字符串替换

Go 语言提供了 strings 包来操作字符串。我们可以使用 strings.ReplaceAll() 方法来将 HTML 标签替换为空白字符,从而得到纯文本内容。具体实现代码如下:

package main

import (
    "fmt"
    "strings"
)

func main() {
    html := "Test Page

Hello, Go!

立即学习go语言免费学习笔记(深入)”;

" // 使用 strings.ReplaceAll() 将 HTML 标签替换为空白字符 text := strings.ReplaceAll(html, "<", " <") text = strings.ReplaceAll(text, ">", "> ") text = strings.TrimSpace(strings.Join(strings.Fields(text), " ")) fmt.Println(text) }

上述代码中,我们先使用 strings.ReplaceAll() 方法将所有左尖括号(“”)替换为右尖括号 + 空格的形式,即将标签和文本之间添加一个空格的间隔,方便后续使用 strings.Fields() 方法将该字符串拆分为多个子串。接着,我们使用 strings.Fields() 方法将字符串拆分为多个子串,再使用 strings.Join() 将这些子串以空白字符连接起来,最后使用 strings.TrimSpace() 方法去除字符串两端的空白字符,得到最终的纯文本内容。

运行上述代码,输出如下:

Test Page Hello, Go!

上述代码实现简单,但是存在以下几个问题:

  1. 如果 HTML 标签中包含属性,例如 Google,我们需要在左右尖括号之间添加空白字符,否则替换后的字符串中链接文本 "Google" 与左右尖括号紧贴在一起,使结果不易阅读。
  2. 如果 HTML 标签内容过多,例如包含 JavaScript、CSS 等,替换速度会比较慢。

考虑到这些问题,我们可以使用第二种方法。

知料万语
知料万语

知料万语—AI论文写作,AI论文助手

下载

方法二:使用 Goquery 库

Goquery 是 Go 语言的一个 HTML 解析和操作库,提供了方便灵活的 API。我们可以使用 Goquery 库解析 HTML,筛选文本节点,从而得到纯文本内容。具体实现代码如下:

package main

import (
    "fmt"
    "strings"

    "github.com/PuerkitoBio/goquery"
)

func main() {
    html := "Test Page

Hello, Go!

立即学习go语言免费学习笔记(深入)”;

" doc, _ := goquery.NewDocumentFromReader(strings.NewReader(html)) // 筛选文本节点 var text string doc.Find(":not(script):not(style)").Each(func(_ int, sel *goquery.Selection) { if sel.Children().Length() == 0 { text += sel.Text() + " " } }) fmt.Println(strings.TrimSpace(text)) }

上述代码中,我们使用 goquery.NewDocumentFromReader() 方法将 HTML 转换为 goquery.Document 对象。接着,我们使用 doc.Find() 方法选择除 script 和 style 标签外的所有节点,使用 sel.Children().Length() 方法判断当前节点是否为文本节点,若是则将其内容添加至 text 变量。最后使用 strings.TrimSpace() 方法去除字符串两端的空白字符,得到最终的纯文本内容。

运行上述代码,输出如下:

Test Page Hello, Go!

使用 Goquery 库可以应对各种标签格式,代码也更易读易维护。

本文介绍了两种去除 HTML 标签的方法,其中正则表达式也是常用的一种。在实际应用中,我们可以针对具体情况选择最适合的方法。

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
C++ 高级模板编程与元编程
C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术,涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例,帮助开发者掌握 如何利用 C++ 模板机制编写高效、可扩展的通用代码,并提升代码的灵活性与性能。

10

2026.01.23

php远程文件教程合集
php远程文件教程合集

本专题整合了php远程文件相关教程,阅读专题下面的文章了解更多详细内容。

29

2026.01.22

PHP后端开发相关内容汇总
PHP后端开发相关内容汇总

本专题整合了PHP后端开发相关内容,阅读专题下面的文章了解更多详细内容。

21

2026.01.22

php会话教程合集
php会话教程合集

本专题整合了php会话教程相关合集,阅读专题下面的文章了解更多详细内容。

21

2026.01.22

宝塔PHP8.4相关教程汇总
宝塔PHP8.4相关教程汇总

本专题整合了宝塔PHP8.4相关教程,阅读专题下面的文章了解更多详细内容。

13

2026.01.22

PHP特殊符号教程合集
PHP特殊符号教程合集

本专题整合了PHP特殊符号相关处理方法,阅读专题下面的文章了解更多详细内容。

11

2026.01.22

PHP探针相关教程合集
PHP探针相关教程合集

本专题整合了PHP探针相关教程,阅读专题下面的文章了解更多详细内容。

8

2026.01.22

菜鸟裹裹入口以及教程汇总
菜鸟裹裹入口以及教程汇总

本专题整合了菜鸟裹裹入口地址及教程分享,阅读专题下面的文章了解更多详细内容。

55

2026.01.22

Golang 性能分析与pprof调优实战
Golang 性能分析与pprof调优实战

本专题系统讲解 Golang 应用的性能分析与调优方法,重点覆盖 pprof 的使用方式,包括 CPU、内存、阻塞与 goroutine 分析,火焰图解读,常见性能瓶颈定位思路,以及在真实项目中进行针对性优化的实践技巧。通过案例讲解,帮助开发者掌握 用数据驱动的方式持续提升 Go 程序性能与稳定性。

9

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号