解决 BeautifulSoup 爬取动态渲染页面时返回空列表的问题

霞舞

发布时间：2026-02-25 22:00:18

998人浏览过

来源于php中文网

原创

解决 BeautifulSoup 爬取动态渲染页面时返回空列表的问题

当目标网页通过 JavaScript 动态加载内容（如尺寸标签、商品信息等）时，BeautifulSoup 仅解析初始 HTML 源码，无法获取 JS 渲染后的 DOM 节点，导致 find_all() 返回空列表。

当目标网页通过 javascript 动态加载内容（如尺寸标签、商品信息等）时，beautifulsoup 仅解析初始 html 源码，无法获取 js 渲染后的 dom 节点，导致 `find_all()` 返回空列表。

在你提供的案例中，本地保存的 MadeInItaly.html 文件能成功提取 XS 等元素，是因为该文件已包含完整渲染后的内容；而直接请求 Zara 商品页 URL 时，服务器返回的是未执行 JS 的“骨架 HTML”——关键尺寸信息由前端框架（如 React 或 Vue）在浏览器中异步注入，requests + BeautifulSoup 组合对此类动态内容完全不可见。

✅ 验证方法：对比源码差异

可快速验证是否为 JS 渲染问题：

# 检查响应中是否真有目标 class 字符串
print("product-size-info__main-label" in result.text)  # 极大概率输出 False

若返回 False，即证实目标 class 并未存在于原始 HTML 中，属于典型客户端渲染（CSR）场景。

✅ 正确解决方案：使用 Selenium 模拟真实浏览器

Selenium 启动真实浏览器（如 Chrome），完整执行页面 JS，确保 DOM 加载完毕后再提取：

芝士饼

芝士饼是一个一站式AI原生应用开发平台，简单几步即可完成应用的创建与发布。

下载

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 无头模式（不显示窗口）
options = Options()
options.add_argument("--headless")
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")
options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36")

driver = webdriver.Chrome(options=options)
wait = WebDriverWait(driver, 10)

try:
    url = "https://www.zara.com/es/es/vestido-midi-volantes-cinturon-con-lino-p00387075.html?v1=258941747&v2=2184287"
    driver.get(url)

    # 等待目标元素出现（显式等待，更可靠）
    elements = wait.until(
        EC.presence_of_all_elements_located((By.CLASS_NAME, "product-size-info__main-label"))
    )

    # 提取文本内容
    labels = [el.text.strip() for el in elements]
    print(labels)  # 输出类似: ['XS', 'S', 'M', 'L', 'XL']

finally:
    driver.quit()

⚠️ 注意事项：

需提前安装 ChromeDriver 并确保其版本与 Chrome 浏览器兼容；

使用 WebDriverWait 替代 time.sleep()，避免因网络延迟导致提取失败或效率低下；

若页面存在反爬机制（如 Cloudflare 验证），需进一步配置代理、绕过检测或使用 undetected-chromedriver；

对于大规模采集，建议搭配 requests-html（轻量级）或 Puppeteer（Node.js）作为替代方案。

✅ 进阶建议：优先检查是否支持 SSR 或 API 接口

部分电商网站虽前端渲染，但尺寸数据实际来自独立 API（如 /products/xxx/availability）。可通过浏览器开发者工具（Network → XHR/Fetch）捕获 AJAX 请求，直接调用接口获取 JSON 数据，性能与稳定性远超 Selenium：

# 示例（需根据实际抓包结果调整）
api_url = "https://www.zara.com/api/products/258941747/availability"
headers = {"User-Agent": "...", "Referer": url}
data = requests.get(api_url, headers=headers).json()
# 解析 data 中的 size info 字段

综上，BeautifulSoup 不是万能的解析器——它只处理静态 HTML。面对现代 SPA（单页应用）网站，应结合动态渲染工具或逆向分析真实数据接口，才能实现稳定、高效的网页抓取。

相关标签:

json ajax chrome 前端框架 beautifulsoup 接口 class JS dom 异步

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何解决 React 网站加载后出现黑屏的问题下一篇：暂无

作者最新文章

如何在 Pandas 中高效提取合并操作中的非匹配行（排除已匹配数据）

2026-02-25 13:09

Next.js 13+ API Route 响应返回与客户端消费完整指南

2026-02-25 13:24

Prisma 透明事务系统原理与实现指南

2026-02-25 13:27

如何准确区分 PyTorch 普通张量与嵌套张量（Nested Tensor）

2026-02-25 13:57

BoltDB 并发访问与连接池实现指南：从单进程限制到 HTTP 服务化封装

2026-02-25 14:08

如何解决 Vite 项目部署后仅首页可访问、其他路由 404 的问题

2026-02-25 14:39

Polars 中实现两个爆炸列的左连接：基于 ID 匹配的高效映射

2026-02-25 14:39

Java中使用XPath精准提取XML中同级子元素文本值的完整教程

2026-02-25 15:13

Java Streams 中对字符串型数字字段进行整型排序的完整实践指南

2026-02-25 15:14

如何在 Promise.allSettled 结果中保留原始 ID 映射关系

2026-02-25 15:37

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

448

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

544

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

323

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

ajax教程

php中文网为大家带来ajax教程合集，Ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换，Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。php中文网还为大家带来ajax的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

166

2023.06.14