如何正确截取并移除 OpenAI 响应中的多行代码块标记（）

霞舞

发布时间：2026-03-15 12:40:02

765人浏览过

来源于php中文网

原创

如何正确截取并移除 openai 响应中的多行代码块标记（）

本文详解如何使用正则表达式精准匹配并清除 OpenAI API 返回文本中成对的 Markdown 代码块标记（即language 和 ```），避免遗漏末尾闭合符号，确保渲染内容干净无残留。

本文详解如何使用正则表达式精准匹配并清除 OpenAI API 返回文本中成对的 Markdown 代码块标记（即 ```language 和 ```），避免遗漏末尾闭合符号，确保渲染内容干净无残留。

在基于 OpenAI API 构建前端聊天界面时，模型常以 Markdown 代码块格式返回可执行代码（如 html</code>、<code>css、```javascript），这对开发者调试友好，但直接渲染到 DOM 中会显示冗余的反引号和语言标识，影响用户体验。你当前的正则方案存在两个关键缺陷：

非贪婪匹配未覆盖跨行闭合：/(html|css|javascript)(.*?)/gs 中的 .*? 在 s（dotall）模式下虽能匹配换行，但未强制匹配到下一个 ```，导致只替换开头，不处理结尾；
两次独立 replace 无法协同处理成对结构：先用一次正则删去开头标记及语言名，再用字符串 .replace("```", "") 只能删除第一个出现的 ```，无法清除末尾残留。

✅ 正确解法是：单次正则匹配整个代码块（含起始、语言、内容、结束），并将其整体替换为空字符串或仅保留内容。

✅ 推荐正则方案（安全、完整、可维护）

// 完整匹配一个代码块：```lang\n...content...\n```
const codeBlockRegex = /```[a-z]*\n([\s\S]*?)\n```/gi;

messageElement.textContent = data.choices[0].message.content
  .trim()
  .replace(codeBlockRegex, '$1'); // $1 表示捕获的内容部分，即纯代码

? 正则说明：

Face++旷视
Face⁺⁺ AI开放平台

下载

[a-z]*</code>：匹配后可选的语言标识（如 html、css，忽略大小写更佳见下文）；

\n：确保语言后换行（Markdown 代码块标准格式）；

([\s\S]*?)：非贪婪捕获所有内容（含换行），[\s\S] 等价于 . + s 标志，但更显式可靠；

\n</code>：精确匹配结尾的换行+（防止误删行内 ```` ```）；

g：全局匹配（处理多个代码块）；i：忽略大小写（兼容 HTML/Js 等变体）。

✅ 进阶优化：支持无语言标识的代码块 & 更鲁棒边界

OpenAI 有时返回无语言名的代码块（如 \nconsole.log('hi')\n）。为全覆盖，推荐增强版正则：

// 匹配带语言名 或 无语言名 的代码块，严格以 \n 分隔
const robustCodeBlockRegex = /```[a-z]*\n([\s\S]*?)\n```|```[a-z]*([\s\S]*?)```/gi;

messageElement.textContent = data.choices[0].message.content
  .trim()
  .replace(robustCodeBlockRegex, (match, contentWithNewline, contentNoNewline) => {
    return contentWithNewline || contentNoNewline || '';
  });

但更简洁实用的做法是——统一用 \r?\n 处理换行，并允许首尾无换行：

// 最佳实践：兼容性强、语义清晰
const cleanCodeBlocks = (text) => {
  return text.replace(/```[a-z]*\r?\n([\s\S]*?)\r?\n```/gi, '$1')
             .replace(/```[a-z]*([\s\S]*?)```/gi, '$1');
};

messageElement.textContent = cleanCodeBlocks(data.choices[0].message.content.trim());

⚠️ 注意事项与最佳实践

永远优先 trim() 再处理：避免首尾空格干扰正则边界判断；
避免使用 String.replace("```", "")：该方法仅替换首个匹配项，且无法识别上下文；
不要忽略大小写：OpenAI 可能输出 JavaScript、CSS，建议正则加 i 标志；
警惕嵌套反引号风险：若用户输入含 ```（四个反引号），上述正则仍安全，因它要求严格三连符起止；
如需高亮渲染：建议保留代码块结构，改用 <pre><code class="js">...</code></pre> 并配合 Prism.js，而非粗暴移除。

✅ 总结

修复核心问题的关键在于：将代码块视为原子单元进行匹配与替换，而非拆分为“开头”和“结尾”两次操作。使用 ([\s\S]*?) 捕获内容、g 全局匹配、i 忽略大小写，并合理处理换行符，即可 100% 清除 OpenAI 响应中的 Markdown 代码围栏，让最终展示专注内容本身——干净、专业、零干扰。

相关标签:

正则表达式 String 字符串 class JS dom

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在 Node.js 中为 MongoDB 查询结果动态添加属性与值下一篇：暂无

作者最新文章

SQLModel 中处理时区感知 datetime 字段的正确方法

2026-03-12 14:35

如何在保留首列字符串的前提下，用每行数值列均值填充 NaN

2026-03-12 14:35

如何让 Flex 布局的双栏页脚在移动端自动堆叠为单列

2026-03-12 14:47

鄂汇办app如何修改昵称