如何从网页脚本中安全提取并解析嵌入的 JSON 数据

碧海醫心

发布时间：2026-02-05 12:49:17

443人浏览过

来源于php中文网

原创

如何从网页脚本中安全提取并解析嵌入的 JSON 数据

本文介绍如何从 html 页面的 `

在现代动态网页中，许多网站（尤其是使用前端框架渲染的站点）会将结构化数据（如新闻列表、产品信息）以 JavaScript 对象字面量的形式内联在

✅ 正确思路：精准提取 + 安全转换

核心原则是 不全局替换字符串（如 text.replace('null', 'None')），因为 null 可能出现在 URL、文件名或正文内容中（如 "link": "/path/to/null-report.pdf"），误替换将破坏数据。应采用「定位 → 截取 → 合法化」三步法：

定位目标 ：用 BeautifulSoup 查找包含 App = 的 script 标签；
精准截取 JSON 片段：从 App = 后开始，提取首个完整 {...} 对象（需处理嵌套大括号）；
转换为标准 JSON：将 JS 特有语法（null, true, false）映射为 JSON 兼容格式（null → null，注意：JSON 中 null 写法与 JS 一致，无需改为 None！⚠️关键纠正）。

? 重要澄清：JSON 规范本身支持 null、true、false（小写，无引号），与 Python 的 None/True/False 是不同语言的表示。json.loads() 要求输入是字符串形式的标准 JSON，因此只需确保提取的字符串中：所有键和字符串值均用双引号包裹（JS 允许单引号或无引号键，JSON 不允许）；null/true/false 已是合法 JSON 字面量，无需替换为 None/True/False（那是 Python 对象，不是 JSON 字符串）；无 JS 注释、函数、变量声明等非法 JSON 内容。

实际网页中，App = {...}; 的 {...} 部分通常已是合法 JSON（键名被引号包裹，字符串值也带引号），唯一干扰是末尾的分号 ; 和可能的后续代码。因此，更健壮的提取方式是：

超能文献

超能文献是一款革命性的AI驱动医学文献搜索引擎。

下载

import requests
from bs4 import BeautifulSoup
import json
import re

def extract_app_json(html: str) -> dict:
    """从HTML中提取App对象并解析为Python字典"""
    soup = BeautifulSoup(html, "html.parser")
    # 查找包含 'App =' 的script标签（更可靠：用正则匹配整个赋值语句）
    script_tag = soup.find("script", string=re.compile(r"App\s*=\s*\{"))

    if not script_tag:
        raise ValueError("未找到包含 'App =' 的script标签")

    script_text = script_tag.string

    # 使用正则精准提取第一个顶层 { ... } 对象（支持嵌套）
    # 匹配 'App = {' 开始，到匹配闭合 '}' 结束（计数括号深度）
    match = re.search(r"App\s*=\s*(\{(?:[^{}]|(?R))*\})", script_text, re.DOTALL | re.VERBOSE)
    if not match:
        # 回退：尝试简单截取（适用于无深层嵌套场景）
        start = script_text.find("App = ") + len("App = ")
        if start == -1:
            raise ValueError("未在script中找到 'App = '")

        # 从 start 开始，寻找匹配的 }（手动计数）
        brace_count = 0
        for i, char in enumerate(script_text[start:], start):
            if char == '{':
                brace_count += 1
            elif char == '}':
                brace_count -= 1
                if brace_count == 0:
                    app_json_str = script_text[start:i+1]
                    break
        else:
            raise ValueError("未能找到匹配的闭合 '}'")
    else:
        app_json_str = match.group(1)

    try:
        return json.loads(app_json_str)
    except json.JSONDecodeError as e:
        raise ValueError(f"JSON解析失败: {e}\n问题片段预览: {app_json_str[:200]}...") from e

# 使用示例
url = "https://polymetalinternational.com/en/investors-and-media/news/press-releases/"
response = requests.get(url)
response.raise_for_status()

app_data = extract_app_json(response.text)

# 提取新闻标题列表
press_releases = app_data.get("components", {}).get("press-release", {}).get("items", [])
for item in press_releases[:5]:  # 打印前5条
    print(f"? {item['name']}")
    print(f"   ? {item['date']} | ? {item['link']}")
    print()

⚠️ 注意事项与最佳实践

User-Agent 头部：目标网站可能屏蔽默认 requests UA，添加头部可提升成功率：

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"}
response = requests.get(url, headers=headers)

异常处理必加：网络请求、DOM 解析、JSON 解析均可能失败，务必用 try/except 包裹；
避免过度依赖结构：app_data['components']['press-release']['items'] 是硬编码路径，建议用 .get() 链式调用并提供默认值（如 []），防止 KeyError；
编码问题：若页面含非 UTF-8 字符（如俄文 \u041f\u0440\u0435\u0441\u0441-\u0440\u0435\u043b\u0438\u0437\u044b），response.text 默认按 HTTP 头或 meta 推断编码，必要时显式指定：response.content.decode("utf-8")；
替代方案（进阶）：若 JS 逻辑复杂（含变量引用、模板字符串），可考虑 pyexecjs 或 Js2Py 执行 JS 上下文获取对象，但性能开销大，普通静态数据推荐纯文本提取。

✅ 总结

解析网页内嵌 JSON 的黄金法则是：用 HTML 解析器定位 script，用正则或括号计数精准截取对象字面量，再交由 json.loads() 解析。摒弃字符串暴力替换，既保证安全性，又提升代码可维护性。此方法适用于绝大多数将数据内联于前端的网站，是 Web 数据采集中的基础而关键的一环。

如何在网页无标准表格标签时高效提取结构化数据

Django教程：使用AJAX将JavaScript游戏分数传输并存储到后端模型

FastAPI与HTMX集成：精确解析JSON响应并局部更新HTML内容

python 怎么调用js

在Qt QML应用中利用Python字典动态更新TextEdit控件内容

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

426

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

540

2023.08.23