Python正则表达式爬虫怎么写_re模块findall与search提取JSON字符串

P粉602998670

发布时间：2026-03-12 09:57:31

882人浏览过

来源于php中文网

原创

优先用 json.loads() 解析完整 js 变量赋值（如 var data = {...}），而非正则硬匹配；若必须用正则，应先用 beautifulsoup 定位 script 标签缩小范围，再结合 re.dotall 提取并用 json.loads() 校验。

python正则表达式爬虫怎么写_re模块findall与search提取json字符串

re.findall 提取 JSON 字符串时匹配不到内容

常见现象是 re.findall(r'\{.*?\}', text) 返回空列表，或只拿到半个 JSON——因为正则默认不跨行、不处理嵌套、遇到换行或注释就断掉。

根本原因：JSON 的 {} 是嵌套结构，而 .*? 无法正确平衡括号层级；且原始 HTML 或 JS 中的 JSON 往往混着换行、缩进、单双引号混用，甚至有 JS 注释（// 或 /* */），正则一碰就失效。

优先改用 json.loads() 解析完整 JS 变量赋值（如 var data = { ... };），而不是硬啃 JSON 片段
若必须用正则，把模式升级为 r'(\{(?:[^{}]|(?R))*\})' ——但 Python re 不支持 (?R) 递归，得换 regex 模块（非标准库）
更稳妥的做法：先用 re.search(r'var\s+\w+\s*=\s*(\{.*?\});', text, re.DOTALL) 拿到赋值右侧，再用 json.loads() 解析，re.DOTALL 确保 . 匹配换行

re.search 和 re.findall 在提取 JSON 场景下的行为差异

re.search 找第一个匹配就停，re.findall 贪心扫全文本——但两者在 JSON 提取中都容易“切错位置”，尤其当页面含多个 {} 块（比如多个 script 标签或内联配置）。

典型坑：用 re.findall(r'\{.*?\}', text) 会把 { "a": 1 } 和后面紧挨着的 { "b": 2 } 中间的 } 和 { 错配成 }`{，导致截断。

立即学习“Python免费学习笔记（深入）”；

ColorMagic

AI调色板生成工具

下载

re.search 更适合提取单个主数据块（如页面唯一的 window.__INITIAL_STATE__ = {...}）
re.findall 仅适用于明确分隔、无嵌套的简单键值对（如 {"id":"123"} 连续出现且彼此独立），且需加 re.DOTALL
永远检查返回结果是否为合法 JSON：用 json.loads(result[0]) 尝试解析，捕获 json.JSONDecodeError ——别信正则“看起来像”

从 script 标签里提取 JSON 最少出错的写法

真实爬虫里，JSON 几乎都藏在 <script></script> 标签中，直接对整个 HTML 用正则扫效率低、误伤多。应先定位 script，再针对性提取。

关键不是“怎么写正则”，而是“怎么缩小搜索范围”：用 BeautifulSoup 定位 <script></script>，再对 .string 内容做正则，比全文扫可靠十倍。

选 script：用 soup.find('script', string=re.compile(r'window\.__DATA__'))，比 re.search(r'<script>.*?window\.__DATA__.*?</script>', html) 更准
提取后先清理：去掉开头的 var data = 、结尾的分号、JS 注释（用 re.sub(r'//.*|/\*.*?\*/', '', js_text)）
避免用 re.match：它只从开头匹配，而 script 里 JSON 往往在中间；一律用 re.search 或 re.findall

为什么不用 json.loads 直接解析反而要写正则

不是不想用，是经常不能用：目标字段可能在 JS 变量赋值里（const config = {...}），或被包裹在函数调用中（init({ ... })），或和 HTML 混在一起没单独标签——这时候 json.loads 会直接报 Expecting property name enclosed in double quotes。

真正该警惕的是“以为正则能替代解析器”：正则只能帮你把疑似 JSON 的字符串抠出来，绝不能代替 json.loads 做校验和结构化。漏掉这步，后续字段访问（如 data['user']['id']）必崩。

抠出来之后必须 json.loads()，哪怕只是 try: json.loads(s) except: continue
双引号问题：JS 允许单引号或无引号 key，但 JSON 不允许；正则抠出来的字符串大概率不合法，得先用 ast.literal_eval()（仅限简单情况）或预处理修复
编码问题：script 标签内容可能是 UTF-8 但没声明，.string 取出来是乱码——确保 BeautifulSoup 解析时指定了 from_encoding='utf-8'

事情说清了就结束。正则只是撬棍，JSON 解析才是锤子；撬不开的时候，别硬砸，先看看有没有更结实的支点。

Python中readlines()读取文件时的换行符陷阱与正确处理方法

Python怎么做同期群分析_Cohort Analysis按月留存率热力图绘制

Python云端运行平台有哪些_Google Colab与Kaggle环境使用

Python全排列怎么生成_itertools.permutations与回溯法

Python字符串为什么不可变_内存优化原理

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python怎么统计文件行数_大文件快速计算总行数算法与技巧下一篇：暂无

作者最新文章

CSS如何实现背景色跟随定位元素移动_通过JS监听坐标并同步css变量颜色

2026-03-11 16:15

如何使用javap命令反编译.class文件_阅读底层字节码指令的入门基础

2026-03-11 16:15

如何在Golang中配置Content Security Policy安全头 Go语言Web安全CSP防护

2026-03-11 16:15

如何在Golang中利用反射实现简单的序列化工具 Go语言对象转字节流

2026-03-11 16:17

CSS如何避免因引入过多样式导致内存溢出_通过工具检测并删除未使用的无用CSS

2026-03-11 16:17

如何在GridFS中对特定业务线的数据设置不同的访问控制

2026-03-11 16:18

如何在Golang中配置私有Git仓库访问权限 Go语言GOPRIVATE环境变量设置

2026-03-11 16:19

如何在Golang中管理数据库迁移Migration Go语言Golang-Migrate在CI中应用

2026-03-11 16:19

如何在Golang中应用中介者模式实现聊天室广播 Go语言并发消息路由

2026-03-11 16:20

Golang中的代码覆盖率对性能压测的影响 Go语言测试与性能的平衡

2026-03-11 16:20

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

455

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

546

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

334

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

530

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

219

2023.08.11

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板