
在web自动化测试和数据抓取中,从复杂的html结构,尤其是web表格中提取特定信息,是一项常见且关键的任务。当目标文本嵌套在
Selenium基础:元素定位与文本获取
在深入具体策略之前,了解Selenium如何定位元素以及如何获取其文本至关重要。
1. 元素定位器 (Locators) Selenium提供了多种定位策略,通过By类使用:
- By.ID:通过元素的ID属性定位。
- By.NAME:通过元素的Name属性定位。
- By.CLASS_NAME:通过元素的Class属性定位。
- By.TAG_NAME:通过元素的标签名定位。
- By.LINK_TEXT:通过链接的完整可见文本定位。
- By.PARTIAL_LINK_TEXT:通过链接的部分可见文本定位。
- By.XPATH:通过XPath表达式定位,功能强大,可以定位页面上几乎任何元素。
- By.CSS_SELECTOR:通过CSS选择器定位,性能通常优于XPath,且语法更简洁。
2. 文本获取方法
- element.text (Python) / element.getText() (Java):这是获取元素可见文本的首选方法。它会返回元素及其所有子元素的可见文本,并且会忽略隐藏元素。对于本教程中
包含的情况,直接获取 的.text通常就能得到中的文本。 - element.get_attribute("innerText"):获取元素的“内部文本”,类似于element.text,但其行为在不同浏览器和某些边缘情况下可能略有差异。
- element.get_attribute("textContent"):获取元素的文本内容,包括隐藏元素的文本,通常与element.text不同。
对于本教程的场景,element.text通常是最佳选择。
策略一:直接定位目标Span标签
如果目标标签具有独特的属性(如id、class)或其在页面中的XPath/CSS路径相对稳定且唯一,我们可以直接通过定位器来获取它。
立即学习“Python免费学习笔记(深入)”;
示例HTML结构:
11/29/2023 04:01:10 Python代码示例:
import time from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 为了演示,我们使用无头模式和模拟HTML内容 options = webdriver.ChromeOptions() options.add_argument('--headless') options.add_argument('--disable-gpu') driver = webdriver.Chrome(options=options) mock_html_content = """Web Table Demo Data 1-1 相关文章
如何在 Selenium 中精准定位并提取非隐藏的表格行元素
如何使用 Beautiful Soup 正确提取网页中的所有分类链接
Python爬虫解析HTML技巧_xpath与css选择器对比【教程】
Python表单自动填写_web驱动模拟操作技巧【指导】
Python自动化脚本项目中爬取网页数据的操作步骤【教程】
本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
更多热门AI工具
更多相关专题
PHP 命令行脚本与自动化任务开发本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。
41
2025.12.13
俄罗斯Yandex引擎入口2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。
31
2026.01.28
包子漫画在线官方入口大全本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。
10
2026.01.28
ao3中文版官网地址大全AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。
32
2026.01.28
php怎么写接口教程本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。
1
2026.01.28
Java 消息队列与异步架构实战本专题系统讲解 Java 在消息队列与异步系统架构中的核心应用,涵盖消息队列基本原理、Kafka 与 RabbitMQ 的使用场景对比、生产者与消费者模型、消息可靠性与顺序性保障、重复消费与幂等处理,以及在高并发系统中的异步解耦设计。通过实战案例,帮助学习者掌握 使用 Java 构建高吞吐、高可靠异步消息系统的完整思路。
8
2026.01.28
更多热门下载
更多相关下载
更多精品课程
相关推荐/热门推荐/最新课程更多最新文章
Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号




