0

0

高效获取JavaScript动态加载网页数据:API与正则解析实践

聖光之護

聖光之護

发布时间:2025-12-06 23:53:01

|

680人浏览过

|

来源于php中文网

原创

高效获取JavaScript动态加载网页数据:API与正则解析实践

在处理动态加载的网页内容时,传统的`requests`与`beautifulsoup`组合常因无法执行javascript而失效。本文将深入探讨两种高效策略:一是利用网站后台api直接获取结构化数据,二是借助正则表达式从初始html源码中提取嵌入的关键信息。通过具体代码示例,我们将展示如何绕过前端渲染,精准抓取目标数据,并提供选择建议,帮助开发者构建更健壮的爬虫应用。

在现代网页开发中,许多数据,尤其是交易记录、实时价格等动态信息,并非直接嵌入在初始HTML文档中,而是通过JavaScript在客户端异步加载。这意味着,当我们使用requests库获取页面内容并尝试用BeautifulSoup解析时,那些由JavaScript填充的元素(例如,本例中尝试获取的input_value类元素)将无法被找到,导致返回None或空列表。要有效应对这类挑战,我们需要采取更高级的策略。

策略一:利用网站内部API接口获取结构化数据

许多网站在后台通过API(应用程序编程接口)与前端进行数据交互。这些API通常返回JSON或XML格式的结构化数据,是获取动态内容的最佳途径。通过分析浏览器开发者工具(Network标签页)中的网络请求,我们可以发现这些隐藏的API接口。

操作步骤:

  1. 打开浏览器开发者工具:访问目标网页,按下F12键打开开发者工具。
  2. 切换到Network(网络)标签页:刷新页面,观察所有网络请求。
  3. 筛选XHR/Fetch请求:通常API请求会显示为XHR或Fetch类型。
  4. 检查请求URL和响应:找到与你所需数据相关的请求,复制其URL,并查看其响应内容,确认数据格式。

示例代码:获取地址的余额趋势数据

立即学习Java免费学习笔记(深入)”;

假设我们发现一个API接口,可以直接提供地址的余额趋势数据。

import requests
import json

def get_balance_trend_from_api(address):
    """
    通过API获取指定地址的余额趋势数据。
    """
    api_url = f"https://ltc.tokenview.io/api/address/balancetrend/ltc/{address}"
    try:
        response = requests.get(api_url)
        response.raise_for_status()  # 检查HTTP请求是否成功
        data = response.json()

        if data and data.get("data"):
            # 打印最近一条余额趋势记录
            print(f"最近余额趋势数据: {data['data'][0]}")
            return data['data'][0]
        else:
            print("API响应中未找到数据。")
            return None
    except requests.exceptions.RequestException as e:
        print(f"请求API时发生错误: {e}")
        return None
    except json.JSONDecodeError:
        print("API响应不是有效的JSON格式。")
        return None

# 示例调用
address_to_check = "M8T1B2Z97gVdvmfkQcAtYbEepune1tzGua"
recent_balance_data = get_balance_trend_from_api(address_to_check)
# 预期输出: {'2024-01-06': '2504667.37296058'} (日期和数值可能因时间而异)

优点与适用场景:

  • 数据结构化:API直接提供JSON或XML等结构化数据,解析简单高效。
  • 稳定性高:相对于HTML结构,API接口通常更稳定,不易因前端改动而失效。
  • 效率高:直接获取数据,无需解析整个HTML文档,速度快。

缺点与限制:

  • 并非所有数据都有公开或易于发现的API接口。
  • API接口可能需要认证(如API Key),或者有调用频率限制。
  • API接口URL或返回数据结构可能变更,需要定期检查。

策略二:通过正则表达式解析HTML中嵌入的动态数据

即使数据通过JavaScript加载,有时关键数据也会以某种特定模式(例如,JavaScript变量赋值、JSON字符串嵌入在

Mistral AI
Mistral AI

Mistral AI被称为“欧洲版的OpenAI”,也是目前欧洲最强的 LLM 大模型平台

下载

操作步骤:

  1. 获取原始HTML文本:使用requests.get().text获取完整的页面源代码。
  2. 分析HTML结构:在浏览器中查看页面源代码(右键 -> 查看页面源代码),搜索你感兴趣的数据,观察其周围的HTML标签和模式。
  3. 编写正则表达式:根据观察到的模式,编写一个能够精准匹配并捕获目标数据的正则表达式。

示例代码:提取交易的输入和输出金额

假设我们发现交易的输入和输出金额以value:"([^"]+)"的模式嵌入在页面的某个JavaScript代码块中。

import requests
import re

def get_transaction_amounts_from_html(address):
    """
    通过正则表达式从页面HTML中提取交易的输入和输出金额。
    """
    url = f"https://ltc.tokenview.io/en/address/{address}"
    try:
        response = requests.get(url)
        response.raise_for_status()
        html_text = response.text

        # 尝试匹配两个相邻的value:"([^"]+)"模式,分别代表输入和输出
        match = re.search(r'value:"([^"]+)".*?value:"([^"]+)', html_text)
        if match:
            inp_amount, out_amount = match.groups()
            print(f"交易输入金额: {inp_amount}")
            print(f"交易输出金额: {out_amount}")
            return {"input": inp_amount, "output": out_amount}
        else:
            print("未通过正则表达式找到交易金额。")
            return None
    except requests.exceptions.RequestException as e:
        print(f"请求页面时发生错误: {e}")
        return None

# 示例调用
address_to_check = "M8T1B2Z97gVdvmfkQcAtYbEepune1tzGua"
transaction_amounts = get_transaction_amounts_from_html(address_to_check)
# 预期输出:
# 交易输入金额: 0.02387814
# 交易输出金额: 0.02319739 (数值可能因时间而异)

优点与适用场景:

  • 无需API:当没有可用的API接口时,这是一个有效的备选方案。
  • 灵活性:可以针对各种复杂的文本模式进行匹配。

缺点与限制:

  • 脆弱性:对HTML结构的变化非常敏感。一旦网站前端代码稍有改动,正则表达式可能立即失效,维护成本高。
  • 复杂性:编写和调试复杂的正则表达式可能非常困难且容易出错。
  • 效率相对较低:需要处理整个HTML文本,且正则表达式的匹配效率受模式复杂度和文本大小影响。

选择合适的策略与注意事项

在处理动态加载的网页数据时,选择合适的策略至关重要:

  1. 优先查找API接口:如果能找到提供所需数据的API接口,这是最推荐的方法。它提供了结构化、稳定且高效的数据获取途径。始终使用浏览器开发者工具检查网络请求,这是发现API的关键。
  2. 考虑正则表达式:当没有可用的API,但数据以可预测的模式嵌入在初始HTML源代码中时,正则表达式是一个可行的备选方案。但请注意其脆弱性,并准备好在网站更新后维护你的正则表达式。
  3. 何时考虑无头浏览器:如果数据完全由客户端JavaScript在运行时动态生成,并且无法通过API或正则表达式从初始HTML中提取,那么Selenium、Playwright或Puppeteer等无头浏览器工具将是最终的选择。这些工具能够模拟真实浏览器环境,执行JavaScript并获取渲染后的DOM内容。然而,它们会显著增加爬虫的复杂性、资源消耗和运行时间。

重要注意事项:

  • 遵守Robots.txt:在爬取任何网站之前,请务必查看其robots.txt文件,了解网站的爬取规则。
  • 尊重网站服务条款:确保你的爬取行为符合网站的服务条款。
  • 设置请求头和延迟:模拟浏览器行为,设置User-Agent等请求头。为了避免给服务器造成过大压力,并降低被封禁的风险,请务必在请求之间添加适当的延迟(例如time.sleep())。
  • 错误处理:在代码中加入健壮的错误处理机制(如try-except块),以应对网络问题、API响应异常或HTML结构变化。

总结

处理JavaScript动态加载的网页数据,要求我们超越传统的requests与BeautifulSoup的局限。通过利用网站的后台API,我们可以高效、稳定地获取结构化数据;而通过正则表达式解析原始HTML中嵌入的数据,则为在无API情况下的特定场景提供了解决方案。理解这两种策略的优缺点,并根据实际情况灵活选择,是构建高效、健壮的网页数据抓取系统的关键。在必要时,再考虑引入无头浏览器等更复杂的工具,以应对最极端的动态渲染场景。

相关专题

更多
js获取数组长度的方法
js获取数组长度的方法

在js中,可以利用array对象的length属性来获取数组长度,该属性可设置或返回数组中元素的数目,只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值,也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容,供大家免费下载使用。

554

2023.06.20

js刷新当前页面
js刷新当前页面

js刷新当前页面的方法:1、reload方法,该方法强迫浏览器刷新当前页面,语法为“location.reload([bForceGet]) ”;2、replace方法,该方法通过指定URL替换当前缓存在历史里(客户端)的项目,因此当使用replace方法之后,不能通过“前进”和“后退”来访问已经被替换的URL,语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入
js四舍五入

js四舍五入的方法:1、tofixed方法,可把 Number 四舍五入为指定小数位数的数字;2、round() 方法,可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

732

2023.07.04

js删除节点的方法
js删除节点的方法

js删除节点的方法有:1、removeChild()方法,用于从父节点中移除指定的子节点,它需要两个参数,第一个参数是要删除的子节点,第二个参数是父节点;2、parentNode.removeChild()方法,可以直接通过父节点调用来删除子节点;3、remove()方法,可以直接删除节点,而无需指定父节点;4、innerHTML属性,用于删除节点的内容。

477

2023.09.01

JavaScript转义字符
JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号,可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容,供大家免费下载体验。

394

2023.09.04

js生成随机数的方法
js生成随机数的方法

js生成随机数的方法有:1、使用random函数生成0-1之间的随机数;2、使用random函数和特定范围来生成随机整数;3、使用random函数和round函数生成0-99之间的随机整数;4、使用random函数和其他函数生成更复杂的随机数;5、使用random函数和其他函数生成范围内的随机小数;6、使用random函数和其他函数生成范围内的随机整数或小数。

991

2023.09.04

如何启用JavaScript
如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍:1、内联脚本是将JavaScript代码直接嵌入到HTML标签中;2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中;3、外部脚本是将JavaScript代码放置在一个独立的文件;4、外部脚本是将JavaScript代码放置在一个独立的文件。

657

2023.09.12

Js中Symbol类详解
Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型,用于表示独一无二的值。Symbol的特点:1、独一无二,每个Symbol值都是唯一的,不会与其他任何值相等;2、不可变性,Symbol值一旦创建,就不能修改或者重新赋值;3、隐藏性,Symbol值不会被隐式转换为其他类型;4、无法枚举,Symbol值作为对象的属性名时,默认是不可枚举的。

551

2023.09.20

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

42

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 3.7万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.3万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号