Python Requests处理JavaScript动态加载内容的策略

碧海醫心

发布时间：2025-12-08 16:00:57

220人浏览过

来源于php中文网

原创

python requests处理javascript动态加载内容的策略

在使用Python的requests和BeautifulSoup库进行网页数据抓取时，经常会遇到无法获取JavaScript动态加载内容的问题。本文将深入探讨这一挑战，并提供两种高效的解决方案：直接调用网站的后端API，以及通过正则表达式从初始HTML中提取嵌入数据。这些方法能帮助开发者绕过BeautifulSoup的局限性，实现对动态网页数据的精准抓取，从而构建更健壮、更灵活的数据采集脚本。

在开发网页数据抓取脚本时，开发者常面临一个挑战：某些网页内容并非在服务器端渲染后直接返回，而是通过JavaScript在客户端动态加载。当尝试使用requests库获取页面HTML，并用BeautifulSoup解析时，这些动态内容往往会缺失，导致无法提取到目标数据，例如返回None或空列表。这正是因为requests仅获取原始HTML响应，而不会执行页面中的JavaScript。

为了有效解决这一问题，我们可以采取以下两种策略：

策略一：识别并调用后端API（推荐）

许多动态加载内容的网站，其数据实际上是从后端API接口获取的。通过直接调用这些API，我们可以绕过前端的JavaScript渲染过程，直接获取到结构化的数据（通常是JSON格式）。

立即学习“Java免费学习笔记（深入）”；

如何发现API接口？ 使用浏览器的开发者工具（通常按F12打开），切换到“Network”（网络）选项卡。刷新页面，观察加载过程中发出的XHR/Fetch请求。这些请求往往就是网站用来获取动态数据的API调用。分析请求的URL、请求方法、请求头和响应内容，可以帮助我们找到目标API。

示例：获取最新的交易数据

假设我们需要从一个区块链地址页面获取最新的交易金额，而该金额是通过JavaScript加载的。通过开发者工具分析，我们可能会发现一个类似以下结构的API接口：

import requests
import json

def get_recent_transaction_from_api(address):
    """
    通过调用后端API获取指定地址的最新交易数据。
    """
    # 构造API URL，其中包含动态的地址参数
    api_url = f"https://ltc.tokenview.io/api/address/balancetrend/ltc/{address}"

    try:
        # 发送GET请求到API接口
        response = requests.get(api_url)
        response.raise_for_status()  # 检查HTTP请求是否成功

        # 解析JSON响应
        data = response.json()

        # 提取并打印最新的交易信息
        if data and data.get("data"):
            # API响应通常是一个列表，第一个元素代表最新的数据
            latest_transaction = data["data"][0]
            print(f"最新交易数据: {latest_transaction}")
            return latest_transaction
        else:
            print("API响应中未找到交易数据。")
            return None
    except requests.exceptions.RequestException as e:
        print(f"请求API时发生错误: {e}")
        return None
    except json.JSONDecodeError:
        print("无法解析API响应为JSON格式。")
        return None

# 示例调用
address_to_check = "M8T1B2Z97gVdvmfhQcAtYbEepune1tzGua"
get_recent_transaction_from_api(address_to_check)

输出示例：

最新交易数据: {'2024-01-06': '2504667.37296058'}

优点：

DreamStudio

SD兄弟产品！AI 图像生成器

下载

高效且精确： 直接获取结构化数据，避免了HTML解析的复杂性。
稳定： API接口通常比HTML结构更稳定，不易因前端改动而失效。
数据丰富： API通常会返回比页面显示更详细的数据。

缺点：

需要手动发现API接口。
API可能需要认证、特定的请求头或参数。
API接口也可能发生变化。

策略二：从初始HTML中提取嵌入数据（备选）

在某些情况下，动态加载的数据可能并非通过独立的API请求获取，而是作为JavaScript变量或JSON对象直接嵌入在初始HTML响应的<script>标签中。此时，我们可以使用正则表达式从原始HTML文本中提取这些数据。

示例：使用正则表达式提取交易金额

假设交易金额数据以特定模式嵌入在页面的某个JavaScript代码块中：

import requests
import re

def get_transaction_from_embedded_html(address):
    """
    从初始HTML文本中，使用正则表达式提取嵌入的交易金额。
    """
    url = f"https://ltc.tokenview.io/en/address/{address}"

    try:
        response = requests.get(url)
        response.raise_for_status()
        html_text = response.text

        # 使用正则表达式匹配特定的模式来提取输入和输出值
        # 这里假设数据以 'value:"([^"]+)' 形式出现
        match = re.search(r'value:"([^"]+)".*?value:"([^"]+)', html_text)

        if match:
            inp_value = match.group(1)
            out_value = match.group(2)
            print(f"输入交易金额 (inp): {inp_value}")
            print(f"输出交易金额 (out): {out_value}")
            return inp_value, out_value
        else:
            print("未在HTML中找到匹配的交易金额。")
            return None, None
    except requests.exceptions.RequestException as e:
        print(f"请求网页时发生错误: {e}")
        return None, None

# 示例调用
address_to_check = "M8T1B2Z97gVdvmfhQcAtYbEepune1tzGua"
get_transaction_from_embedded_html(address_to_check)

输出示例：

输入交易金额 (inp): 0.02387814
输出交易金额 (out): 0.02319739

优点：

如果数据确实嵌入在初始HTML中，则无需额外的网络请求。
对于简单且模式固定的嵌入数据，操作相对直接。

缺点：

脆弱： 网页HTML结构或JavaScript代码稍有改动，正则表达式就可能失效。
复杂性： 编写和维护复杂的正则表达式可能很困难。
局限性： 仅适用于数据以可解析的文本形式嵌入的情况。

总结与注意事项

BeautifulSoup的局限： BeautifulSoup是一个优秀的HTML/XML解析库，但它不执行JavaScript。因此，对于JavaScript动态加载的内容，它“看不到”也无法解析。
优先API调用： 当遇到动态内容时，首选策略是检查浏览器开发者工具，尝试发现并直接调用网站的后端API。这通常是最稳定、高效且能获取最详细数据的方法。
正则表达式作为备选： 如果无法找到合适的API，或者确认数据以可解析的文本形式嵌入在初始HTML中，可以考虑使用正则表达式。但请注意其脆弱性。
Selenium作为终极方案： 如果上述两种方法都无法奏效，或者网页的动态性极其复杂（例如，需要用户交互、复杂的DOM操作才能显示数据），那么使用Selenium等自动化测试工具模拟浏览器行为，执行JavaScript并等待内容加载，将是最终的解决方案。但Selenium资源消耗较大，运行速度较慢。
爬虫伦理与反爬机制： 在进行数据抓取时，请务必遵守网站的robots.txt协议，尊重网站的使用条款，并注意设置合理的请求间隔，避免给目标网站带来过大压力，触发反爬机制。

通过灵活运用上述策略，开发者可以更有效地处理Python requests在抓取动态网页数据时遇到的挑战，从而构建出更强大、更适应现代网页结构的爬虫程序。

Flutter 页面中动态显示的输入框自动化点击与文本输入教程

如何阻止表单提交导致的页面跳转（Route 变更）

Flask Fetch 响应解析错误：正确提取 JSON 数据并安全渲染到页面

如何从网页中安全提取并解析嵌入的 JavaScript JSON 数据

如何从网页脚本中安全提取并解析嵌入的 JSON 数据

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Graphviz在macOS上的正确安装与配置教程下一篇：从HTML页面安全有效地触发Python脚本：原理、限制与替代方案

作者最新文章

《宝可梦 Pokopia》简评：温暖人心的慢生活

2026-03-12 13:57

JTable 显示 CSV 数据时仅显示首列的完整解决方案

2026-03-12 13:57

如何在 Spring 中正确注入和使用抽象类的子类 Bean

2026-03-12 14:07

高德地图路线规划耗时过长怎么办

2026-03-12 14:07

阿里旺旺网页版登录入口在哪

2026-03-12 14:18

高效求解轮盘弹跳路径：基于循环检测的 O(n) 时间复杂度优化方案

2026-03-12 14:19

破次元恋人app如何注销

2026-03-12 14:25

App Engine Datastore 中基于游标的分页查询最佳实践

2026-03-12 14:37

如何高效地对字典列表进行排序（Python 教程）

2026-03-12 14:49

怪物乐土巨魔在哪里抓怪物乐土巨魔位置

2026-03-12 15:00

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23