如何高效抓取网页中所有手风琴式折叠区的文本内容（以牙科费用表为例）

碧海醫心

发布时间：2026-02-25 22:56:01

402人浏览过

来源于php中文网

原创

如何高效抓取网页中所有手风琴式折叠区的文本内容（以牙科费用表为例）

本文介绍一种更高效、轻量的网页数据抓取方案：当目标数据已存在于初始html中时，优先使用 requests + lxml 替代 selenium，避免冗余的浏览器自动化操作，显著提升稳定性与执行速度。

本文介绍一种更高效、轻量的网页数据抓取方案：当目标数据已存在于初始html中时，优先使用 requests + lxml 替代 selenium，避免冗余的浏览器自动化操作，显著提升稳定性与执行速度。

在实际网页爬虫开发中，一个常见误区是“见到交互式页面就默认用 Selenium”。但正如本例所揭示的——访问 https://www.php.cn/link/e1a2719218ad9000036929229c99cd3a 时，尽管页面使用了手风琴（Accordion）组件折叠展示价格，所有治疗项目与费用均已在首次 HTTP 响应的 HTML 源码中静态存在，无需触发 JavaScript 展开动作。此时强行使用 Selenium 不仅增加复杂度（需处理 Cookie 弹窗、元素点击、隐式等待等），还易因 DOM 加载时机或元素定位偏差导致失败。

✅ 推荐方案：requests + lxml（静态解析）
该组合轻量、快速、稳定，适用于绝大多数服务端渲染（SSR）页面。以下是完整可运行代码：

import requests
from lxml import html

# 1. 发起 HTTP 请求获取原始 HTML
url = "https://www.php.cn/link/e1a2719218ad9000036929229c99cd3a"
response = requests.get(url, timeout=10)
response.raise_for_status()  # 确保请求成功

# 2. 解析 HTML 文档
tree = html.fromstring(response.text)

# 3. 定位价格表格行（<tr>），逐行提取第一列（项目名）和第二列（价格）
dental_fees = []
for row in tree.xpath('//div[contains(@class, "pricing")]//tr'):
    try:
        # 使用 .xpath('./td[1]/text()') 精确匹配当前行下的单元格文本
        product = row.xpath('./td[1]/text()')[0].strip()
        price = row.xpath('./td[2]/text()')[0].strip()
        dental_fees.append({"Title": product, "Price": price})
        print(f"✓ {product} → {price}")
    except (IndexError, AttributeError):
        # 跳过表头、空行或格式异常的行
        continue

print(f"\n✅ 共提取 {len(dental_fees)} 条有效价格数据。")

? 关键说明与注意事项：

为什么不用 Selenium？
原代码中尝试点击 .material-icons 展开所有 Accordion，但该选择器实际匹配多个非折叠控件（如返回箭头），且 driver.find_element(By.CLASS_NAME,'accordion-content') 会返回首个匹配元素而非每个区块的内容，导致数据重复或遗漏。Selenium 在此场景下属于“高射炮打蚊子”。
XPath 定位逻辑解析：
//div[contains(@class, "pricing")]//tr 精准锁定价格区域内的所有表格行；./td[1] 和 ./td[2] 使用相对路径（./）确保从当前

WPS AI
金山办公发布的AI办公应用，提供智能文档写作、阅读理解和问答、智能人机交互的能力。

下载

节点出发，避免跨行误读。
健壮性增强建议：
- 添加 timeout 和 raise_for_status() 防止网络异常静默失败；
- 使用 try/except 捕获 IndexError（如空）和 AttributeError（如节点无文本）；
- 对 strip() 结果做空值校验（如 if product and price:）可进一步过滤脏数据。
- 依赖安装（一次执行）：
```
pip install requests lxml
```

相关标签:

beautifulsoup if Cookie try class dom 选择器 td tr http https 自动化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：PyTorch 向量化实现按音高分组的频谱均值计算下一篇：暂无

作者最新文章

PHP 关联数组按范围型字符串键的自然排序教程

2026-02-23 09:32

Laravel 中多角色管理模型的设计：单模型策略 vs 继承式模型的实践权衡

2026-02-23 09:33

如何在 PHP 邮件中正确显示换行（解决 HTML 头部导致 \n 失效问题）

2026-02-23 09:37

如何通过 AJAX 动态加载外部 HTML 页面内容到当前页面

2026-02-23 09:43

如何在 iPhone 上高效编辑并运行本地 HTML/JS 测试页面

2026-02-23 09:47

GoQuery 网页抓取中精准跳过表格首列（如图片单元格）的实践指南

2026-02-23 09:53

如何使用 ASM 提取 Java 方法的原始字节码（并为何不推荐直接比对）

2026-02-23 10:13

Go 中数组及其指针作为方法接收者的正确用法

2026-02-23 10:13

如何在 PySpark 中从数组列中提取首个匹配子串的元素

2026-02-23 10:14

在 iPhone 上本地编辑并运行 HTML/JS 测试页面的可行方案

2026-02-23 10:20

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

830

2023.08.22

Cookie 是一种在用户计算机上存储小型文本文件的技术，用于在用户与网站进行交互时收集和存储有关用户的信息。当用户访问一个网站时，网站会将一个包含特定信息的 Cookie 文件发送到用户的浏览器，浏览器会将该 Cookie 存储在用户的计算机上。之后，当用户再次访问该网站时，浏览器会向服务器发送 Cookie，服务器可以根据 Cookie 中的信息来识别用户、跟踪用户行为等。

6483

2023.06.30