如何使用 goquery 从 HTML 中精准提取无标签包裹的纯文本

霞舞

发布时间：2026-03-05 17:20:01

440人浏览过

来源于php中文网

原创

如何使用 goquery 从 HTML 中精准提取无标签包裹的纯文本

本文介绍在 Go 中借助 goquery 库提取后或标签外的裸露文本（如“India,Kolhapur”“12th”），通过 Text() 方法结合字符串处理实现高精度内容抽取。

本文介绍在 go 中借助 goquery 库提取 `
` 后或 `` 标签外的裸露文本（如“india,kolhapur”“12th”），通过 `text()` 方法结合字符串处理实现高精度内容抽取。

在网页爬虫或数据清洗场景中，常遇到关键信息未被独立 HTML 标签包裹的情况——例如 Education
12th 中的 "12th" 仅是
后的兄弟文本节点，无法通过 .Find("br").Next() 直接获取（因 Next() 匹配的是元素节点，而非文本节点）。goquery 的 Selection.Text() 方法会递归提取当前节点及其所有后代节点的全部可见文本（不含 HTML 标签），这正是解决该问题的核心突破口。

✅ 推荐方案：利用 Text() + 字符串裁剪

观察目标 HTML 片段：

<p align="justify"><b>Name</b>Priyaka</p>
<p align="justify"><b>Eduction</b><br>12th</p>

每段

内， 中的内容（如 "Name"、"Eduction"）是前缀，其后的纯文本（如 "Priyaka"、"12th"）即所需目标。因此可按以下步骤提取：

定位所有带 align="justify" 的
元素；
对每个
，先用 s.Find("b").Text() 获取加粗前缀；

Tago AI
AI生成带货视频，专为电商卖货而生

下载
调用 s.Text() 获取整段完整文本；
使用 strings.TrimPrefix() 剥离前缀，剩余部分即为所求纯文本。

完整可运行示例代码如下：

立即学习“前端免费学习笔记（深入）”；

package main

import (
    "fmt"
    "strings"
    "github.com/PuerkitoBio/goquery"
)

func main() {
    html := `
    <div class="container">
        <div class="row">
            <div class="col-lg-8">
                <p align="justify"><b>Name</b>Priyaka</p>
                <p align="justify"><b>Surname</b>Patil</p>
                <p align="justify"><b>Adress</b><br>India,Kolhapur</p>
                <p align="justify"><b>Hobbies </b><br>Playing</p>
                <p align="justify"><b>Eduction</b><br>12th</p>
                <p align="justify"><b>School</b><br>New Highschool</p>
            </div>
        </div>
    </div>`

    doc, err := goquery.NewDocumentFromReader(strings.NewReader(html))
    if err != nil {
        panic(err)
    }

    var results []string
    doc.Find(".container").Find("[align=\"justify\"]").Each(func(_ int, s *goquery.Selection) {
        boldText := strings.TrimSpace(s.Find("b").Text()) // 如 "Name", "Eduction"
        fullText := strings.TrimSpace(s.Text())           // 如 "NamePriyaka", "Eduction12th"

        // 注意：若存在换行/空格干扰，可先 Normalize 空白（可选）
        cleanFull := strings.Join(strings.Fields(fullText), " ")
        cleanBold := strings.Join(strings.Fields(boldText), " ")

        result := strings.TrimPrefix(cleanFull, cleanBold)
        if result != "" {
            results = append(results, strings.TrimSpace(result))
        }
    })

    fmt.Println("Extracted text:", results)
    // Output: Extracted text: [Priyaka Patil India,Kolhapur Playing 12th New Highschool]
}

⚠️ 注意事项与进阶建议

空格与换行处理：Text() 返回的字符串可能包含多余空白或换行符，建议配合 strings.TrimSpace() 或 strings.Fields() 进行标准化；
前缀唯一性保障：TrimPrefix 要求前缀严格匹配开头。若
中 后存在空格（如 Name Priyaka），需在 boldText 中保留该空格，或统一规范化；
更鲁棒的定位方式：若结构复杂（如
后文本需单独提取），可改用 Contents() 遍历子节点，判断 Node.Type == html.TextNode 并跳过和
节点，但代码复杂度显著上升；
性能考量：Each() 是同步遍历，适用于中小规模 HTML；对海量页面，建议结合 goroutine 池控制并发，但需注意 goquery.Selection 非线程安全，不可跨 goroutine 复用。

掌握 Text() 的语义本质（聚合所有后代文本）并辅以精准的字符串操作，即可优雅应对绝大多数“无标签裸文本”抽取需求——无需依赖 XPath 或底层 html.Node 遍历，简洁、高效、符合 Go 的实用主义哲学。

优化 Go 中 html/template 渲染性能的实战指南

Go 模板中实现多值返回：通过结构体方法在渲染时动态修改并捕获输出值

如何在Golang中处理模板渲染错误 Go语言html/template异常

Go 模板中调用多返回值方法的正确实践

如何配置Golang的单元测试报告环境 Go语言测试覆盖率工具安装

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

golang如何定义变量

golang定义变量的方法：1、声明变量并赋予初始值“var age int =值”；2、声明变量但不赋初始值“var age int”；3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

209

2024.02.23

golang有哪些数据转换方法

golang数据转换方法：1、类型转换操作符；2、类型断言；3、字符串和数字之间的转换；4、JSON序列化和反序列化；5、使用标准库进行数据转换；6、使用第三方库进行数据转换；7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

244

2024.02.23

golang常用库有哪些

golang常用库有：1、标准库；2、字符串处理库；3、网络库；4、加密库；5、压缩库；6、xml和json解析库；7、日期和时间库；8、数据库操作库；9、文件操作库；10、图像处理库。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

354

2024.02.23

golang和python的区别是什么

golang和python的区别是：1、golang是一种编译型语言，而python是一种解释型语言；2、golang天生支持并发编程，而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

214

2024.03.05

golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型，并具有垃圾回收功能的开源编程语言，采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

407

2024.05.21

golang结构体相关大全

本专题整合了golang结构体相关大全，想了解更多内容，请阅读专题下面的文章。

429

2025.06.09

golang相关判断方法

本专题整合了golang相关判断方法，想了解更详细的相关内容，请阅读下面的文章。

200

2025.06.10

golang数组使用方法

本专题整合了golang数组用法，想了解更多的相关内容，请阅读专题下面的文章。

1314

2025.06.17

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板