Python网页抓取实战：高效解析Tonies产品时长与价格

聖光之護

发布时间：2025-11-24 12:36:07

671人浏览过

来源于php中文网

原创

Python网页抓取实战：高效解析Tonies产品时长与价格

本文提供了一个使用python进行网页抓取的高效教程，旨在从tonies.com网站提取tonies产品的播放时长和价格。文章解决了传统爬虫在处理shadow dom和cookie接受等复杂问题时的局限性，重点演示了如何利用requests和beautifulsoup库，通过解析网页中嵌入的json数据 (__next_data__脚本标签) 来准确、全面地获取结构化产品信息。

传统网页抓取面临的挑战

在尝试从现代网站（如tonies.com）抓取数据时，开发者经常会遇到一些挑战。例如，网站可能使用JavaScript动态加载内容，导致BeautifulSoup等静态解析工具难以直接获取所有信息。用户可能会遇到复杂的交互元素，如Shadow DOM中的Cookie接受弹窗，这使得使用Selenium等自动化工具也变得复杂。此外，直接解析HTML元素可能需要编写复杂的选择器和正则表达式，且容易因网站结构微小变化而失效，效率低下，且维护困难。最初的尝试可能仅能抓取到部分数据（例如，只抓取到21个项目），无法获取完整的页面信息。

高效的数据获取策略：利用嵌入式JSON

幸运的是，许多现代Web应用（尤其是使用React、Next.js等框架构建的单页应用）会在HTML页面中嵌入结构化的JSON数据，通常位于一个ID为__NEXT_DATA__的<script>标签内。这些JSON数据包含了页面渲染所需的大部分或全部动态信息，包括产品列表、价格、描述等。通过直接解析这些JSON数据，我们可以绕过复杂的HTML元素定位、JavaScript执行以及Shadow DOM等问题，以一种更直接、更高效、更稳定的方式获取所需信息。这种方法不仅能获取更全面的数据（例如，一次性获取196个产品信息），还能减少对页面DOM结构的依赖。

实现步骤

我们将使用Python的requests库发送HTTP请求，BeautifulSoup库解析HTML，以及内置的json库处理JSON数据。

1. 导入必要的库

首先，确保安装了requests和beautifulsoup4库。如果尚未安装，可以通过pip install requests beautifulsoup4进行安装。

立即学习“Python免费学习笔记（深入）”；

PixVerse

PixVerse是一款强大的AI视频生成工具，可以轻松地将多种输入转化为令人惊叹的视频。

下载

import requests
from bs4 import BeautifulSoup
import json

2. 发送HTTP请求并解析HTML

使用requests.get()方法向目标URL发送请求，获取网页内容。为了模拟浏览器行为，建议添加User-Agent头信息。然后，使用BeautifulSoup将HTML内容解析成一个可操作的对象。

url = "https://tonies.com/en-gb/tonies/"
# 添加headers模拟浏览器请求，有助于避免被网站识别为爬虫而拒绝访问
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124124 Safari/537.36"
}

try:
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()  # 检查HTTP请求是否成功，如果失败则抛出异常
except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")
    # 在实际应用中，这里可能需要更复杂的错误处理或重试机制
    exit()

soup = BeautifulSoup(response.text, "html.parser")

3. 定位并提取JSON数据

这是整个过程的关键一步。我们通过ID选择器#__NEXT_DATA__来定位包含JSON数据的<script>标签，并提取其文本内容。由于这个文本内容是一个JSON字符串，我们需要使用json.loads()将其转换为Python字典。

next_data_script = soup.select_one("#__NEXT_DATA__")
if not next_data_script:
    print("未找到__NEXT_DATA__ script标签，网站结构可能已改变。")
    exit()

try:
    data = json.loads(next_data_script.text)
except json.JSONDecodeError as e:
    print(f"解析JSON数据失败: {e}")
    exit()

4. 结构化处理产品数据

提取出的data字典包含了网站的各种状态和数据。我们需要根据其结构导航到具体的产品列表。对于tonies.com，产品数据通常嵌套在["props"]["pageProps"]["page"]["productList"]["normalizedProducts"]路径下。

try:
    product_list = data["props"]["pageProps"]["page"]["productList"]["normalizedProducts"]
except KeyError as e:
    print(f"导航到产品列表路径失败: {e}，JSON结构可能已改变。")
    exit()

# 定义我们感兴趣的键
use_keys = ["name", "price", "runTime"]

# 遍历产品列表，提取所需信息
tonies_data = []
for product in product_list:
    item_info = {}
    for key in use_keys:
        if key == "price":
            # 价格信息通常嵌套在另一个字典中，需要进一步提取'amount'
            item_info[key] = product.get(key, {}).get("amount")
        else:
            item_info[key] = product.get(key)
    tonies_data.append(item_info)

完整代码示例

将上述步骤整合，形成一个完整的Python脚本：

import requests
from bs4 import BeautifulSoup
import json

def scrape_tonies_data():
    """
    从tonies.com抓取产品名称、价格和播放时长。
    """
    url = "https://tonies.com/en-gb/tonies/"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124124 Safari/537.36"
    }

    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()  # 检查HTTP请求是否成功
    except requests.exceptions.RequestException as e:
        print(f"请求失败: {e}")
        return []

    soup = BeautifulSoup(response.text, "html.parser")

    next_data_script = soup.select_one("#__NEXT_DATA__")
    if not next_data_script:
        print("未找到__NEXT_DATA__ script标签，网站结构可能已改变。")
        return []

    try:
        data = json.loads(next_data_script.text)
        product_list = data["props"]["pageProps"]["page"]["productList"]["normalizedProducts"]
    except (json.JSONDecodeError, KeyError) as e:
        print(f"解析JSON数据或导航路径失败: {e}

如何解决 React 前端调用 Flask 后端时的 CORS 跨域错误

如何让一个函数记住上次调用时的参数（记忆化简单实现）

如何在 React 聊天机器人中集成 LangChain 对话记忆机制

PythonWeb前后端整合项目教程_FastAPIReact完整实例

Python全栈项目开发进阶教程_FrontendBackend完整项目

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python命令行参数解析与路径处理指南下一篇：在VS Code中正确激活和使用Conda虚拟环境的全面指南

作者最新文章

壹深圳app如何更换头像

2026-03-15 09:37

如何在同一个CIE1931色度图中叠加绘制RGB色域与普朗克轨迹

2026-03-15 09:46

如何在单个CIE1931色度图中叠加绘制RGB色域与普朗克轨迹

2026-03-15 09:52

WordPress中WP_Query配合ACF日期字段排序失效的排查与解决

2026-03-15 09:54

如何在 Discord.py 中正确将 Slash 命令注册到 Cog 中

2026-03-15 09:57

如何在 React 中纯手写实现里程表（Odometer）式数字过渡动画

2026-03-15 10:03

JavaScript 中的闭包与块级作用域变量：深入理解循环中变量绑定机制

2026-03-15 10:03

如何将两个时间序列 DataFrame 的列合并并智能填充缺失值

2026-03-15 10:04

如何在 Go 应用中安全处理注册流程中的数据库写入与邮件发送

2026-03-15 10:13

如何使用累积拼接生成递增的字符串序列

2026-03-15 10:29

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23