0

0

Playwright Java:精确提取网页表格数据并按列处理的教程

聖光之護

聖光之護

发布时间:2025-09-28 11:55:10

|

560人浏览过

|

来源于php中文网

原创

Playwright Java:精确提取网页表格数据并按列处理的教程

本教程旨在解决使用Playwright Java从网页表格提取数据时,内容被误存储为单个单元格的问题。通过详细指导如何利用嵌套循环和Playwright的Locator API精确抓取每个单元格的文本内容,实现数据按列分离,为后续导出到Excel等结构化存储提供了清晰、可操作的解决方案,确保数据完整性和可用性。

引言:网页表格数据提取的挑战

在使用playwright java进行web自动化测试或数据抓取时,经常需要从网页表格中提取结构化数据。一个常见的挑战是,当尝试提取整行数据时,例如使用row.allinnertexts()方法,可能会导致该行所有单元格的内容被合并成一个字符串,最终在导出到excel工具时,所有数据挤在一个单元格中,无法实现按列分离。这大大降低了数据的可用性和分析价值。

本教程将详细介绍如何通过精确的元素定位和循环机制,确保从网页表格中提取的每一项数据都能对应到独立的列,从而为后续的数据处理和导出(如到Excel)打下坚实的基础。

问题分析:allInnerTexts()的局限性

在Playwright中,Locator.allInnerTexts()方法用于获取定位器匹配到的所有元素的内部文本列表。对于一个

(表格行)元素,如果直接对其调用allInnerTexts(),它通常会返回一个包含所有子元素(如或 )文本的列表。然而,如果行内的文本被渲染为一个连续的块,或者在某些情况下,它可能将所有单元格的文本合并成一个字符串作为列表中的单个项。

例如,原始代码中的输出:

[   Airi Satou  Accountant  Tokyo   33  $162,700]

这表明row.allInnerTexts()在某些渲染下,会将一行中的所有单元格文本连接起来,形成一个包含单一长字符串的列表。这与我们期望的“每个单元格数据独立”的目标相悖。

立即学习Java免费学习笔记(深入)”;

解决方案:精确到单元格的遍历

要解决这个问题,我们需要放弃直接获取整行文本的策略,转而采用更精细的方法:首先定位到每一行,然后在每一行内部,再遍历定位到每一个具体的单元格(

元素),并单独提取其文本内容。这可以通过嵌套循环和Playwright的Locator API结合XPath或CSS选择器来实现。

1. 核心思路

  • 外部循环: 遍历表格中的每一行()。
  • 内部循环: 在每一行内部,遍历该行中的每一个数据单元格()。
  • 定位器: 使用String.format()动态构建XPath或CSS选择器,精确地指向tbody下的特定行和特定列的单元格。
  • 2. 示例代码

    以下是使用Playwright Java实现精确提取网页表格数据并按列处理的完整代码示例。此示例将导航到一个包含数据表格的网页,并逐行逐列地提取数据。

    import com.microsoft.playwright.*;
    import com.microsoft.playwright.options.*;
    import java.util.ArrayList;
    import java.util.List;
    
    public class WebTableDataExtractor {
    
        public static void main(String[] args) {
            Playwright playwright = Playwright.create();
            Browser browser = null;
            try {
                // 启动Chromium浏览器,并设置为无头模式(可选,生产环境推荐)
                browser = playwright.chromium().launch(new BrowserType.LaunchOptions().setHeadless(true));
                Page page = browser.newPage();
    
                // 导航到目标网页
                page.navigate("https://datatables.net/extensions/select/examples/initialisation/checkbox.html");
    
                // 等待表格加载完成,确保tbody和tr元素可见
                // 这是一个良好的实践,防止在元素未加载完成时尝试定位
                page.waitForSelector("table#example tbody tr", new Page.WaitForSelectorOptions().setTimeout(10000));
    
                // 定义一个列表来存储所有提取的数据行
                List> allTableData = new ArrayList<>();
    
                // 假设我们要提取表格的前10行数据
                // 注意:XPath索引通常从1开始
                int numberOfDataRowsToExtract = 10;
                // 假设表格有5列数据(Name, Position, Office, Age, Salary)
                int numberOfColumns = 5; 
    
                System.out.println("开始提取网页表格数据:");
    
                // 外部循环:遍历每一行数据
                for (int rowIndex = 1; rowIndex <= numberOfDataRowsToExtract; rowIndex++) {
                    List currentRowData = new ArrayList<>(); // 存储当前行的数据
                    System.out.print(String.format("正在提取第 %d 行: [", rowIndex));
    
                    // 内部循环:遍历当前行的每一个单元格
                    for (int colIndex = 1; colIndex <= numberOfColumns; colIndex++) {
                        // 构建精确的单元格Locator
                        // 使用String.format动态构建XPath,定位到特定行和列的
                        // table#example tbody 确保我们定位到数据体而不是表头
                        String cellXPath = String.format("table#example tbody tr[%d] td[%d]", rowIndex, colIndex);
                        Locator cellLocator = page.locator(cellXPath);
    
                        // 提取单元格的文本内容
                        String cellText = cellLocator.innerText().trim(); // 使用trim()去除首尾空白
    
                        currentRowData.add(cellText); // 将单元格数据添加到当前行列表
                        System.out.print(cellText + (colIndex < numberOfColumns ? "\t" : "")); // 打印并用制表符分隔
                    }
                    allTableData.add(currentRowData); // 将当前行数据添加到总数据列表
                    System.out.println("]");
                }
    
                System.out.println("\n所有数据提取完成,准备进行后续处理(例如导出到Excel)。");
                // 此时,allTableData 包含了所有按行按列分离的结构化数据
                // 可以进一步使用Apache POI等库将其写入Excel
    
            } catch (PlaywrightException e) {
                System.err.println("Playwright操作失败,请检查网络连接或选择器: " + e.getMessage());
            } catch (Exception e) {
                System.err.println("发生未知错误: " + e.getMessage());
            } finally {
                // 确保在程序结束时关闭浏览器和Playwright实例
                if (browser != null) {
                    browser.close();
                }
                if (playwright != null) {
                    playwright.close();
                }
            }
        }
    }

    3. 代码说明

    • Playwright 初始化: 标准的Playwright实例创建和浏览器启动流程。setHeadless(true)表示在后台运行浏览器,不显示UI,适合自动化脚本。
    • 导航与等待: page.navigate()用于打开目标网页。page.waitForSelector()是关键,它确保在尝试查找元素之前,表格及其内容已经加载并可见,避免ElementNotFound错误。
    • 数据结构: List> allTableData被用来存储所有提取到的数据。外层List代表所有行,内层List代表每一行的所有单元格数据。
    • 动态 XPath: String.format("table#example tbody tr[%d] td[%d]", rowIndex, colIndex)是核心。它根据当前循环的行索引(rowIndex)和列索引(colIndex)动态生成一个精确的XPath表达式,定位到表格数据区(tbody)中的特定单元格。
      • table#example:通过ID定位到具体的表格。
      • tbody:定位到表格的数据体部分,排除表头。
      • tr[%d]:定位到第rowIndex行。注意XPath索引通常从1开始。
      • td[%d]:定位到当前行的第colIndex个数据单元格。
    • innerText(): cellLocator.innerText().trim()用于获取单个单元格的纯文本内容,trim()用于去除文本两端的空白字符,使数据更干净。
    • 错误处理与资源释放: 使用try-catch-finally块来捕获可能发生的Playwright异常或其他运行时错误,并在finally块中确保浏览器和Playwright实例被正确关闭,释放资源。

    注意事项与最佳实践

    1. 选择器鲁棒性: 示例中使用的是基于ID和tbody的XPath。实际项目中,表格结构可能更复杂或动态变化。选择器应尽可能健壮,例如使用包含特定文本的

      企奶奶
      企奶奶

      一款专注于企业信息查询的智能大模型,企奶奶查企业,像聊天一样简单。

      下载
      作为参考,或使用更通用的CSS选择器。
    2. 动态行/列数: 如果表格的行数或列数不固定,可以通过先定位所有行page.locator("table#example tbody tr").count()和所有列page.locator("table#example tbody tr[1] td").count()来动态获取。

    3. 分页与滚动: 对于带有分页或无限滚动的表格,需要额外的逻辑来处理翻页操作或滚动加载更多数据。

    4. 数据类型转换: 提取的所有数据都是字符串类型。如果需要进行数值计算或日期处理,务必进行适当的类型转换。

    5. 导出到Excel: 提取到的List>数据结构非常适合使用Apache POI等Java库导出到Excel。您可以遍历此列表,将每一行的数据写入Excel的相应单元格。

      • 示例 Excel 导出思路 (伪代码):

        // 假设 allTableData 已经填充
        // 创建一个Excel工作簿和工作表
        // XSSFWorkbook workbook = new XSSFWorkbook();
        // Sheet sheet = workbook.createSheet("Table Data");
        
        // int rowNum = 0;
        // for (List rowData : allTableData) {
        //     Row excelRow = sheet.createRow(rowNum++);
        //     int colNum = 0;
        //     for (String cellValue : rowData) {
        //         excelRow.createCell(colNum++).setCellValue(cellValue);
        //     }
        // }
        // 将工作簿写入文件
        // FileOutputStream outputStream = new FileOutputStream("output.xlsx");
        // workbook.write(outputStream);
        // workbook.close();
        // outputStream.close();
    6. 总结

      通过本教程,我们学习了如何使用Playwright Java精确地从网页表格中提取数据,确保每个单元格的内容都能独立存储,解决了allInnerTexts()可能导致的合并问题。核心在于利用嵌套循环和动态XPath/CSS选择器,实现对表格行和单元格的精细化定位。掌握这一技术,将使您在Web数据抓取和自动化任务中能够更高效、准确地处理结构化表格数据,为后续的数据分析和报表生成奠定坚实基础。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

309

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

443

2023.08.02

counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

198

2023.11.20

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

761

2023.07.31

python中的format是什么意思
python中的format是什么意思

python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

433

2024.06.27

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.8万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3万人学习

CSS教程
CSS教程

共754课时 | 24.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号