
python高效解析html表格:div和span元素的巧妙处理
本文介绍如何利用Python高效提取HTML文档中由div和span元素构成的表格数据。我们将使用强大的BeautifulSoup库来完成此任务。
BeautifulSoup库的应用
BeautifulSoup是Python中流行的HTML/XML解析库,它提供简洁易用的API,方便我们提取网页数据。下面是使用BeautifulSoup提取表格数据的步骤:
import bs4
# 假设html_content已包含HTML页面内容
soup = bs4.BeautifulSoup(html_content, 'html.parser')
# 定位包含表格的div元素 (根据实际HTML结构调整)
table_div = soup.find('div', {'id': 'articlelistnew'})
# 提取表格行
rows = table_div.find_all('div', {'class': 'articleh'})
# 提取每一行的数据
data = []
for row in rows:
cells = row.find_all('span') # 假设单元格由span元素构成
row_data = [cell.text.strip() for cell in cells] # 提取文本并去除空格
data.append(row_data)
# 打印提取结果
print(data)
这段代码首先创建BeautifulSoup对象,然后根据HTML结构定位包含表格数据的div元素,再提取每一行(div元素),最后从每一行中提取单元格数据(span元素),并将其存储到data列表中。text.strip()用于去除单元格文本中的多余空格。 请根据你的实际HTML结构调整代码中的选择器('div', {'id': 'articlelistnew'} 和 'div', {'class': 'articleh'})。
立即学习“Python免费学习笔记(深入)”;
通过以上步骤,您可以轻松地使用Python从HTML中提取由div和span元素构成的表格数据。 记住根据你的目标网页的HTML结构调整代码中的选择器。











