0

0

BeautifulSoup网页抓取指南:避免空列表的常见陷阱与最佳实践

心靈之曲

心靈之曲

发布时间:2025-10-12 12:55:38

|

862人浏览过

|

来源于php中文网

原创

BeautifulSoup网页抓取指南:避免空列表的常见陷阱与最佳实践

本文旨在解决使用beautifulsoup进行网页抓取时遇到的空列表问题。我们将深入分析导致空列表的常见原因,特别是选择器不准确和代码结构不合理。教程将演示如何通过采用更精确的css选择器和优化迭代逻辑来构建健壮的抓取脚本,确保数据能够被正确提取,避免常见的抓取失败。

网页抓取中的常见挑战:空列表问题

在使用BeautifulSoup进行网页内容抓取时,开发者常常会遇到一个令人困惑的问题:尽管目标网页内容清晰可见,但抓取结果却是一个空列表。这通常意味着我们的抓取逻辑未能成功定位并提取到预期的HTML元素。空列表的出现,往往是由于选择器不准确、HTML结构理解有误或代码迭代方式存在缺陷所致。

以下是一个可能导致空列表的初始抓取尝试示例:

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    # 尝试查找标题和文章内容
    headlines = soup.find('div', class_=['news-card-title', 'news-right-box'])
    articles = soup.find('div', class_=['news-card-content', 'news-right-box'])

    # 检查并尝试组合数据
    if headlines and articles and len(headlines) == len(articles): # 此处会出错
        news_articles = [
            {
                'news_headline': headline.find_all('span', attrs={'itemprop': 'headline'}).string,
                'news_article': article.find_all('div', attrs={'itemprop': 'articleBody'}).string,
                'news_category': news_category
            }
            for headline, article in zip(headlines, articles)
        ]
        news_data.extend(news_articles)

print(news_data) # 输出结果为空列表

深入分析原始代码的问题所在

上述代码之所以会输出空列表,主要原因在于对BeautifulSoup的find()方法及其返回值的理解和使用存在偏差,以及后续逻辑的结构性问题:

  1. find() 方法的局限性: soup.find() 方法只会返回第一个匹配的Tag对象,如果没有找到任何匹配项,则返回 None。在示例中,headlines 和 articles 变量很可能因为选择器不准确或目标元素不存在而直接被赋值为 None。
  2. NoneType 对象的处理: 如果 headlines 或 articles 变量为 None,那么 if headlines and articles 条件就会失败,导致后续的代码块不执行。即使它们成功找到了一个 Tag 对象,len(headlines) 这样的操作也会引发 TypeError,因为 Tag 对象没有 len() 方法。
  3. 迭代逻辑的缺陷: zip(headlines, articles) 期望 headlines 和 articles 都是可迭代的序列(如列表)。但由于 find() 返回的是单个 Tag 对象或 None,而不是一个包含多个 Tag 对象的列表,这种 zip 操作是无法按预期工作的。即使 headlines 和 articles 都是单个 Tag 对象,zip 也只会迭代一次,且后续的 find_all().string 操作也可能因 None 或找不到子元素而失败。
  4. 文本提取方式: 使用 .string 属性来提取文本内容在某些情况下可能会返回 None,特别是当标签包含子标签或混合内容时。更稳健的方法是使用 get_text()。

优化策略:使用CSS选择器精准定位元素

为了解决上述问题并实现可靠的网页抓取,我们可以采用以下优化策略:

Deep Search
Deep Search

智能文献、网页检索与分析工具。AI赋能,洞悉万象,让知识检索与总结触手可及

下载
  1. 使用CSS选择器: CSS选择器提供了更强大、更灵活的方式来定位HTML元素。BeautifulSoup通过 soup.select()(返回所有匹配的元素列表)和 soup.select_one()(返回第一个匹配的元素)支持CSS选择器。
  2. 定位父级容器: 识别包含所有目标信息(如新闻标题、文章内容)的共同父级HTML元素。这样,我们只需迭代这些父级容器,并在每个容器内部提取所需的数据。这大大简化了逻辑,并提高了代码的健壮性。
  3. 统一迭代逻辑: 避免对多个独立的元素列表进行 zip 操作,而是通过迭代父级容器,在其内部直接查找子元素。
  4. 使用 get_text() 提取文本: get_text() 方法能够递归地提取一个标签内所有文本内容,并将其拼接成一个字符串,比 .string 更具鲁棒性。

下面是基于这些优化策略的改进代码示例:

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    # 使用CSS选择器定位所有新闻文章的父级容器
    # 这里的'[itemtype="http://schema.org/NewsArticle"]'是一个非常精确的选择器
    # 它匹配所有具有指定itemtype属性的元素,通常代表一个独立的内容块
    for article_container in soup.select('[itemtype="http://schema.org/NewsArticle"]'):
        # 在每个文章容器内部,使用select_one()定位标题和文章主体
        headline_element = article_container.select_one('[itemprop="headline"]')
        article_body_element = article_container.select_one('[itemprop="articleBody"]')

        # 检查元素是否存在,并使用get_text()提取内容
        news_headline = headline_element.get_text(strip=True) if headline_element else "N/A"
        news_article = article_body_element.get_text(strip=True) if article_body_element else "N/A"

        news_data.append(
            {
                'news_headline': news_headline,
                'news_article': news_article,
                'news_category': news_category
            }
        )

print(news_data) # 将输出包含数据的列表

关键改进点与最佳实践

  1. 选择器精度至关重要: 示例中使用了 [itemtype="http://schema.org/NewsArticle"] 这样的属性选择器,它通常比简单的类名或标签名更具唯一性和稳定性。在实际抓取中,务必花时间检查目标网站的HTML结构,找到最能代表目标内容的独特标识符(如 id、独特的 class 组合、自定义属性等)。
  2. 迭代逻辑的鲁棒性: 通过首先定位包含单个完整数据记录的父级元素(如 article_container),然后遍历这些父级元素,并在每个父级元素内部查找其子元素,可以极大地增强代码的鲁棒性。这种“先大后小”的策略避免了多个独立列表之间长度不匹配或元素顺序错乱的问题。
  3. select() 与 select_one() 的选择:
    • soup.select('CSS选择器'):返回所有匹配的元素列表,适用于需要获取多个相同类型元素的情况。
    • element.select_one('CSS选择器'):返回第一个匹配的元素,如果没有找到则返回 None。适用于在已知父元素内查找唯一的子元素。
  4. get_text() 的应用: 始终优先使用 get_text(strip=True) 来提取文本内容。strip=True 参数可以自动去除文本两端的空白字符,使得提取的数据更干净。相比之下,.string 属性在标签内包含其他标签时会返回 None,不够灵活。
  5. 空值处理: 在提取 headline_element 和 article_body_element 后,增加了 if headline_element else "N/A" 这样的判断,这是良好的编程习惯。即使选择器通常很准确,也应考虑到某些元素可能偶尔缺失的情况,避免程序因 NoneType 错误而崩溃。
  6. User-Agent 设置: 在 headers 中设置 User-Agent 是一个良好的实践,可以模拟浏览器请求,减少被网站识别为爬虫的风险,从而避免被阻止访问。

总结

当使用BeautifulSoup进行网页抓取时遇到空列表,通常是由于HTML元素选择器不够精确或数据迭代逻辑存在缺陷。通过深入理解目标网页的HTML结构,并利用强大的CSS选择器(如属性选择器)来精准定位包含完整数据记录的父级容器,然后在其内部安全地提取子元素,可以构建出高效且健壮的网页抓取脚本。同时,采用 get_text() 进行文本提取和适当的空值处理,将进一步提升代码的可靠性,确保数据能够被成功抓取。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1071

2023.08.02

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

847

2023.08.22

mysql标识符无效错误怎么解决
mysql标识符无效错误怎么解决

mysql标识符无效错误的解决办法:1、检查标识符是否被其他表或数据库使用;2、检查标识符是否包含特殊字符;3、使用引号包裹标识符;4、使用反引号包裹标识符;5、检查MySQL的配置文件等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

218

2023.12.04

Python标识符有哪些
Python标识符有哪些

Python标识符有变量标识符、函数标识符、类标识符、模块标识符、下划线开头的标识符、双下划线开头、双下划线结尾的标识符、整型标识符、浮点型标识符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

326

2024.02.23

java标识符合集
java标识符合集

本专题整合了java标识符相关内容,想了解更多详细内容,请阅读下面的文章。

294

2025.06.11

c++标识符介绍
c++标识符介绍

本专题整合了c++标识符相关内容,阅读专题下面的文章了解更多详细内容。

179

2025.08.07

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

761

2023.08.03

chatgpt使用指南
chatgpt使用指南

本专题整合了chatgpt使用教程、新手使用说明等等相关内容,阅读专题下面的文章了解更多详细内容。

0

2026.03.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 1.0万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.7万人学习

CSS教程
CSS教程

共754课时 | 44万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号