0

0

如何在 LangChain 中保护特定文本块不被切分

花韻仙語

花韻仙語

发布时间:2026-02-15 12:29:06

|

663人浏览过

|

来源于php中文网

原创

如何在 LangChain 中保护特定文本块不被切分

本文介绍一种灵活、轻量且兼容原生 LangChain 文本切分器的方法,通过正则预处理将带标记(如 )的敏感文本块整体保留,再交由 RecursiveCharacterTextSplitter 处理其余部分,从而避免破坏语义完整性。

本文介绍一种灵活、轻量且兼容原生 langchain 文本切分器的方法,通过正则预处理将带标记(如 ``)的敏感文本块整体保留,再交由 `recursivecharactertextsplitter` 处理其余部分,从而避免破坏语义完整性。

在使用 LangChain 构建 RAG 应用时,RecursiveCharacterTextSplitter 是最常用的文本切分工具。但其默认行为会对所有字符(包括空格、换行、标点)一视同仁地切分,无法识别“需整体保留”的关键段落——例如嵌入式代码块、结构化 JSON 片段、法律条款原文或带自定义标签的富文本内容。

直接修改 separators 列表(如将 加入优先级最高分隔符)虽可行,但会严重干扰后续切分逻辑:一旦 成为分隔符,其后的常规分隔符(如空格、换行、甚至空字符串 '')就无法按预期参与递归切分,导致 chunk_size 和 chunk_overlap 失效,丧失 LangChain 切分器的核心优势。

✅ 推荐方案:正则预分割 + 分治式切分
核心思想是:先用正则表达式将原文按 ... 边界粗粒度切分为“可切区域”与“不可切区域”,再对两类区域分别应用不同策略——前者交由 RecursiveCharacterTextSplitter 精确处理,后者原样保留并清理标签。

以下是完整、可复用的实现:

万兴喵影
万兴喵影

国产剪辑神器

下载
import re
from langchain.text_splitter import RecursiveCharacterTextSplitter

def split_with_protected_blocks(
    text: str,
    protected_tag: str = "<nosplit>",
    chunk_size: int = 500,
    chunk_overlap: int = 100,
    separators: list = ["\n\n", "\n", " ", ""]
) -> list[str]:
    # Step 1: 使用捕获组正则分割 —— 保留含标签的完整块
    # 模式:匹配 <nosplit>...<nosplit> 整体,并确保前后边界清晰
    pattern = rf"({re.escape(protected_tag)}[^]*?{re.escape(protected_tag)})"
    parts = re.split(pattern, text)

    result_chunks = []
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        separators=separators,
        keep_separator=False
    )

    for part in parts:
        if not part.strip():
            continue
        # 若该段以 protected_tag 开头,视为受保护块,整体保留并去标签
        if part.strip().startswith(protected_tag):
            cleaned = part.strip().replace(protected_tag, "").strip()
            if cleaned:  # 避免空块
                result_chunks.append(cleaned)
        # 否则为普通文本,交由 LangChain 切分器处理
        else:
            chunks = splitter.split_text(part)
            result_chunks.extend(chunks)

    return result_chunks

# ✅ 使用示例
nosplit_block = "<nosplit>Keep all this together, very important! Seriously though it is...<nosplit>"
text = "Giggity! " + nosplit_block + " Ahh yeah...\nI just buy a jetski."

chunks = split_with_protected_blocks(
    text=text,
    protected_tag="<nosplit>",
    chunk_size=5,  # 小尺寸便于演示效果
    separators=["\n\n", "\n", " ", ""]  # 完整支持默认分隔符链
)

print(chunks)
# 输出:
# ['Giggity!', 'Keep all this together, very important! Seriously though it is...', 'Ahh', 'yeah...', 'I', 'just', 'buy', 'a', 'jetski.']

? 关键设计说明:

  • re.split(pattern, text) 使用捕获组 (...),确保匹配到的 ... 块作为独立元素保留在 parts 列表中,而非被丢弃;
  • re.escape(protected_tag) 防止标签中含正则元字符(如 [, ], *)引发意外匹配;
  • [^]*? 是非贪婪匹配任意字符(含换行),确保最短匹配闭合标签;
  • 对普通文本调用 splitter.split_text(),完全复用 LangChain 的递归逻辑(包括 chunk_size、chunk_overlap、多级 separators 回退机制),无功能降级;
  • 受保护块仅做标签剥离与首尾空格清理,零切分,语义完整性 100% 保障。

⚠️ 注意事项:

  • 标签必须成对出现且闭合正确,否则正则可能跨段匹配;建议在预处理阶段校验或添加容错逻辑(如只取首个闭合对);
  • 若需支持嵌套 ,需改用更复杂的解析器(如 html.parser 或自定义状态机),正则不再适用;
  • 在生产环境中,可将该函数封装为 ProtectedTextSplitter 类,继承 TextSplitter 接口,无缝接入 LangChain Pipeline。

此方法无需魔改 LangChain 源码、不牺牲切分精度、不引入额外依赖,是平衡灵活性、可维护性与工程健壮性的最优实践。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

439

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

544

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

318

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

521

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

253

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

757

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

219

2023.08.11

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

76

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号