如何从嵌入式 JavaScript 脚本中提取动态渲染的房产销售表格数据

霞舞

发布时间：2026-02-15 10:48:10

349人浏览过

来源于php中文网

原创

如何从嵌入式 JavaScript 脚本中提取动态渲染的房产销售表格数据

本文介绍如何绕过前端渲染限制，通过正则匹配从网页标签中精准提取内嵌的 JSON 数据，并将其结构化为 Pandas DataFrame，适用于 CoreLogic 等采用“脚本注入数据”模式的房地产数据页面。

本文介绍如何绕过前端渲染限制，通过正则匹配从网页 `<script>` 标签中精准提取内嵌的 json 数据，并将其结构化为 pandas dataframe，适用于 corelogic 等采用“脚本注入数据”模式的房地产数据页面。</script>

许多现代数据展示型网站（如 CoreLogic 澳大利亚近期成交平台）并不将表格内容直接写入 HTML DOM，而是通过 <script> 标签内联一段 JavaScript 代码（例如 var postcodeData = {...}），由前端框架动态渲染表格。这意味着传统基于 BeautifulSoup.find('table') 的静态解析会失败——因为 HTML 中根本不存在 <table> 元素。</script>

针对此类场景，核心思路是：定位并提取脚本中赋值给特定变量（如 postcodeData）的原始 JSON 字符串，再反序列化为 Python 对象。由于该数据未经过 API 鉴权、纯前端使用，通常可直接获取（无需 Selenium 或登录）。

以下为完整可运行的解决方案：

Lemonaid

AI音乐生成工具，在音乐领域掀起人工智能革命

下载

import json
import re
import requests
import pandas as pd

url = "https://www.corelogic.com.au/our-data/recent-sales?postcode=5600"

# 发起请求（注意：部分站点可能校验 User-Agent，建议添加）
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
}
response = requests.get(url, headers=headers)
response.raise_for_status()  # 抛出网络错误

# 使用正则精准捕获 postcodeData = { ... } 中的 JSON 对象（含嵌套结构）
# 注意：.*? 是非贪婪匹配，}; 确保匹配到完整对象结尾
match = re.search(r'postcodeData\s*=\s*(\{[^}]*\});', response.text)
if not match:
    raise ValueError("Failed to locate 'postcodeData' variable in script")

# 提取并解析 JSON
data_dict = json.loads(match.group(1))

# 结构分析：data_dict['data'] 是列表，每个元素含 'properties' 字段（即一条销售记录）
# 示例：data_dict['data'][0]['properties'] → {'address': '123 Main St', 'price': 850000, ...}
df = pd.DataFrame(data_dict['data'][0]['properties'])

print(f"成功提取 {len(df)} 列字段，前 3 行示例：")
print(df.head(3))

✅ 关键要点说明：

立即学习“Java免费学习笔记（深入）”；

避免 403 错误：原问题中 urllib.request.urlopen() 缺少 User-Agent 头，易被服务器拦截；requests + 自定义 headers 更健壮；
正则更鲁棒：r'postcodeData\s*=\s*(\{[^}]*\});' 可处理空格、换行及简单嵌套（若 JSON 含多层 {}，需升级为 json.loads(re.search(r'postcodeData\s*=\s*(\{.*?\});', ...).group(1)) 配合 re.DOTALL）；
数据结构验证：实际响应中 data_dict['data'] 是长度为 1 的列表（含全部 90 条记录），每条记录位于 item['properties']；若未来结构变更，建议先打印 data_dict.keys() 和 type(data_dict['data']) 调试；
扩展性提示：如需批量抓取多个邮编，可封装函数并加入异常重试、延迟及请求频率控制，符合 robots.txt 与网站使用条款。

该方法轻量、高效，不依赖浏览器自动化，是解析“伪静态”JavaScript 内联数据的标准实践。

让表格主体（tbody）自动占据剩余可用高度

在 Google Charts 中通过绝对定位 DOM 元素实现动态文本覆盖

html中如何在地址栏传一个参数

在 Google Chart 上叠加可动态更新的自定义文本（居中显示或任意定位）

在 Google Chart 上叠加可动态更新的自定义文本（居中/任意位置）

相关标签:

javascript java json 前端框架 beautifulsoup pandas 封装字符串数据结构 var 对象 dom table 自动化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何使用 JavaScript 动态设置跳转链接并实现页面重定向下一篇：暂无

作者最新文章

TtkBootstrap 登录窗口销毁后主窗口启动报错的解决方案

2026-02-12 13:54

如何将网页设置成html格式文件格式

2026-02-12 13:58

在 WooCommerce 结账页精准触发用户邮件通知的完整实现指南

2026-02-12 14:05

如何在 React Native 中持久化自定义启动页状态并实现正确的导航流程

2026-02-12 14:12

Go 中使用含切片字段的结构体作为 map 键的惯用方法：改用数组或哈希化处理

2026-02-12 14:38

PowerShell 中高效提取 quser 会话 ID 的实用方法

2026-02-12 14:50

html如何给一行文字加下划线

2026-02-12 15:05

电脑表格文件丢失怎么找回

2026-02-12 15:18

如何在 Quarkus 中使用 Redis Pipeline 提升批量读取性能

2026-02-12 15:28

html中如何让文本随着分辨率改变而改变

2026-02-12 15:32

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

439

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

544

2023.08.23