解决BeautifulSoup网页抓取空列表问题：优化选择器与数据提取策略

聖光之護

发布时间：2025-10-14 09:40:23

374人浏览过

来源于php中文网

原创

解决BeautifulSoup网页抓取空列表问题：优化选择器与数据提取策略

本文旨在解决使用beautifulsoup进行网页抓取时，因选择器不准确或数据提取方式不当导致返回空列表的常见问题。通过分析错误示例，我们将重点介绍如何利用css选择器进行更精确的元素定位，并采用迭代父元素、逐个提取子元素的高效策略，辅以`.get_text()`方法确保文本内容的正确获取，从而构建稳定可靠的网页数据抓取程序。

网页抓取中空列表问题的根源

在使用Python的requests和BeautifulSoup库进行网页数据抓取时，一个常见的困扰是程序最终输出一个空列表。这通常不是因为网络请求失败（尽管这也是一个需要检查的因素），而是因为BeautifulSoup未能根据我们提供的选择器找到目标元素。

以以下代码片段为例，它尝试从inshorts.com抓取新闻标题和内容：

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    # 原始代码中的选择器
    headlines = soup.find('div', class_=['news-card-title', 'news-right-box'])
    articles = soup.find('div', class_=['news-card-content', 'news-right-box'])

    if headlines and articles and len(headlines) == len(articles):
        news_articles = [
            {
                'news_headline': headline.find_all('span', attrs={'itemprop': 'headline'}).string,
                'news_article': article.find_all('div', attrs={'itemprop': 'articleBody'}).string,
                'news_category': news_category
            }
            for headline, article in zip(headlines, articles)
        ]
        news_data.extend(news_articles)

print(news_data)

这段代码返回空列表的主要原因在于其选择器存在问题。soup.find('div', class_=['news-card-title', 'news-right-box'])和soup.find('div', class_=['news-card-content', 'news-right-box'])这两个语句很可能返回None。find()方法只返回匹配的第一个元素，并且在处理class_参数时，传入列表通常表示匹配所有这些类，而不是匹配其中任意一个。更重要的是，如果选择器不准确，find()将直接返回None，导致后续对headlines或articles进行操作时引发错误，或者在if headlines and articles条件判断时直接失败，最终导致news_data保持为空。此外，即使元素被找到，find_all(...).string也可能无法正确提取文本，因为find_all返回的是一个列表，即使只有一个元素，也需要进一步处理，且.string属性仅适用于只有一个子节点的标签。

优化选择器与数据提取策略

为了解决上述问题，我们需要采用更精确的选择器和更健壮的数据提取逻辑。关键在于：

Insou AI

Insou AI 是一款强大的人工智能助手，旨在帮助你轻松创建引人入胜的内容和令人印象深刻的演示。

下载

利用CSS选择器： Beautiful Soup支持强大的CSS选择器，通过select()和select_one()方法，我们可以编写更简洁、更准确的定位规则。
定位父级容器： 优先找到包含所有目标信息的共同父级容器。这样可以确保我们处理的是一个个完整的数据单元。
迭代与局部提取： 遍历每个父级容器，然后在该容器的范围内进一步提取其子元素的信息。
使用.get_text()： 确保正确提取元素的文本内容，避免.string属性可能带来的问题。

改进后的抓取代码示例

以下是优化后的代码，展示了如何应用这些策略：

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    # 使用CSS选择器定位每个新闻文章的父级容器
    # 经过网页检查，发现每个新闻文章都由一个具有特定itemtype属性的div包裹
    for article in soup.select('[itemtype="http://schema.org/NewsArticle"]'):
        # 在每个article容器内，使用select_one定位标题和文章内容
        headline_element = article.select_one('[itemprop="headline"]')
        article_body_element = article.select_one('[itemprop="articleBody"]')

        # 检查元素是否存在，并使用.get_text()提取文本
        news_headline = headline_element.get_text(strip=True) if headline_element else "N/A"
        news_article = article_body_element.get_text(strip=True) if article_body_element else "N/A"

        news_data.append(
            {
                'news_headline': news_headline,
                'news_article': news_article,
                'news_category': news_category
            }
        )

print(news_data)

代码解析：

soup.select('[itemtype="http://schema.org/NewsArticle"]'): 这是核心改进。通过检查目标网页的HTML结构（通常使用浏览器开发者工具），我们发现每篇新闻文章都由一个div标签包裹，该标签具有itemtype="http://schema.org/NewsArticle"属性。这是一个非常精确且稳定的CSS选择器，能够直接选中所有新闻文章的根容器。select()方法会返回一个匹配所有元素的列表。
for article in ...: 我们遍历select()返回的每个article元素，确保我们逐个处理每篇新闻。
article.select_one('[itemprop="headline"]') 和 article.select_one('[itemprop="articleBody"]'): 在每个article容器的内部，我们再次使用select_one()方法来定位新闻标题（itemprop="headline"）和文章主体（itemprop="articleBody"）。select_one()只返回第一个匹配的元素，适用于我们期望只找到一个标题或一个文章主体的情况。
.get_text(strip=True): 这是提取文本内容的推荐方法。get_text()会获取元素及其所有子元素的可见文本内容，strip=True参数可以去除文本两端的空白字符，使结果更整洁。同时，我们添加了if headline_element else "N/A"这样的检查，以防某些元素确实缺失，增强代码的鲁棒性。

注意事项与最佳实践

审查HTML结构： 在编写任何选择器之前，务必使用浏览器的开发者工具（F12）仔细检查目标网页的HTML结构。理解元素的层级关系、ID、类名、属性等是编写有效选择器的基础。
CSS选择器优先： 对于复杂的选择需求，CSS选择器通常比find()和find_all()的组合更强大、更简洁。它们支持ID、类名、属性、子元素、兄弟元素等多种组合方式。
处理动态内容： 如果目标网站使用JavaScript动态加载内容，requests和BeautifulSoup可能无法获取到这些内容。此时，您可能需要考虑使用Selenium等工具来模拟浏览器行为。
User-Agent： 在请求头中设置User-Agent是一个良好的实践，可以模拟浏览器访问，降低被网站识别为爬虫并阻止的风险。
错误处理： 始终考虑网络请求失败（data.status_code != 200）和元素未找到（选择器返回None或空列表）的情况，并进行相应的错误处理或默认值设置。
遵守Robots协议： 在进行网页抓取时，请务必查看网站的robots.txt文件，了解网站是否允许爬取以及允许爬取的范围。尊重网站的使用条款。

总结

当BeautifulSoup返回空列表时，通常意味着您的选择器未能准确匹配目标元素。通过采用更精确的CSS选择器（如select()和select_one()），定位包含完整数据单元的父级容器，并在其内部进行迭代和局部提取，结合使用.get_text()方法，可以显著提高网页抓取程序的稳定性和准确性。始终牢记，深入理解目标网页的HTML结构是编写高效、健壮爬虫的关键。

Python爬虫入门_requests库使用

Docker 中 Headless Chrome 文本渲染失败的根源与解决方案

如何绕过 Cloudflare 防护成功抓取 Stylevana 网站商品数据

如何使用 Selenium 动态定位并点击含日期的下载链接

如何正确选择并点击网页中动态生成的多个链接元素

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

1051

2023.08.02

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

847

2023.08.22

http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

498

2023.11.09

http请求415错误怎么解决

解决方法：1、检查请求头中的Content-Type；2、检查请求体中的数据格式；3、使用适当的编码格式；4、使用适当的请求方法；5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容，可以阅读下面的文章。

453

2023.11.14

HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容，可以阅读本专题下面的文章。

3628

2024.03.12

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2926

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

热门下载

网站特效

网站源码

网站素材

前端模板