使用 BeautifulSoup 成功爬取网页数据的完整实践指南

霞舞

发布时间：2026-03-18 10:49:13

927人浏览过

来源于php中文网

原创

使用 BeautifulSoup 成功爬取网页数据的完整实践指南

本文详解如何解决 beautifulsoup 爬虫常见失败原因：缺少请求头导致被拒绝、相对 url 无法正确跳转，并提供可直接运行的修复代码与最佳实践。

本文详解如何解决 beautifulsoup 爬虫常见失败原因：缺少请求头导致被拒绝、相对 url 无法正确跳转，并提供可直接运行的修复代码与最佳实践。

在使用 requests + BeautifulSoup 构建网页爬虫（例如课程目录抓取系统）时，初学者常遇到“返回空结果”或 AttributeError 等静默失败——表面代码无语法错误，实则因反爬机制或 URL 处理疏漏导致请求被拦截或解析中断。核心问题通常集中在两点：服务端拒绝无标识请求 和 相对路径未转为绝对路径。

以下是一个典型修复后的完整示例（以 Harvard Coursicle 课程页为例）：

import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

def scrape_course_catalog(base_url):
    # ✅ 关键1：添加合法 User-Agent 请求头，模拟真实浏览器
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
    }

    try:
        response = requests.get(base_url, headers=headers, timeout=10)
        response.raise_for_status()  # 主动抛出 HTTP 错误（如 403/404）
    except requests.exceptions.RequestException as e:
        print(f"❌ 请求失败：{e}")
        return []

    soup = BeautifulSoup(response.content, "html.parser")

    # ✅ 关键2：精准定位容器（注意原代码中拼写错误：'tileContaine' → 'tileContainer'）
    tile_container = soup.find("div", id="tileContainer")
    if not tile_container:
        print("⚠️ 未找到课程容器，请检查页面结构是否变更")
        return []

    courses = []
    for link in tile_container.find_all("a", href=True):
        # ✅ 关键3：将相对 href 转为绝对 URL，避免 404
        absolute_url = urljoin(base_url, link["href"])

        try:
            detail_resp = requests.get(absolute_url, headers=headers, timeout=10)
            detail_resp.raise_for_status()
            detail_soup = BeautifulSoup(detail_resp.content, "html.parser")

            # 示例：提取课程标题（根据实际页面结构调整选择器）
            title_elem = detail_soup.find("h1") or detail_soup.find("title")
            course_name = title_elem.get_text(strip=True) if title_elem else "未知课程"
            courses.append({"name": course_name, "url": absolute_url})

        except Exception as e:
            print(f"⚠️ 解析课程页 {absolute_url} 失败：{e}")
            continue

    return courses

# 使用示例
if __name__ == "__main__":
    url = "https://www.coursicle.com/harvard/courses/"
    catalog = scrape_course_catalog(url)
    print(f"✅ 成功获取 {len(catalog)} 门课程信息")
    for item in catalog[:3]:  # 仅打印前3条预览
        print(f"- {item['name']} → {item['url']}")

? 重要注意事项：

AIPURE

AIPURE帮您轻松找到2024年最佳AI工具

下载

永远校验响应状态码：使用 response.raise_for_status() 及时捕获 403（禁止访问）、404（页面不存在）等异常；
警惕动态渲染内容：若目标页面依赖 JavaScript 渲染（如 React/Vue 应用），requests + BeautifulSoup 将无法获取真实 DOM，此时应改用 Selenium 或 Playwright；
遵守 robots.txt 与网站条款：爬取前请查阅 https://www.coursicle.com/robots.txt，并限制请求频率（建议添加 time.sleep(1)）；
ID/Class 名易变：生产环境需加入容错逻辑（如多 selector 回退、日志记录结构变更），避免因前端微调导致整个爬虫崩溃。

通过以上三重加固（请求头伪装、URL 规范化、异常健壮处理），你的爬虫将显著提升稳定性与可维护性，真正迈向工程级数据采集实践。

相关标签:

beautifulsoup class dom https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在网页音乐播放器中正确传递含空格的专辑路径参数下一篇：暂无

作者最新文章

猫眼电影怎么进行影评与评分

2026-03-15 14:17

Pandas 中按 code 分组前向填充 -1 值并按时间排序的正确实现

2026-03-15 14:43

如何在 Python 中约束可变参数函数的所有参数均为 JSON 兼容类型

2026-03-15 14:50

如何使用 Eloquent 高效筛选至少关联一个子模型的父级集合

2026-03-15 14:56

研究发现《我的世界》和《罗布乐思》玩家较少游玩3A新作

2026-03-15 14:56

TypeScript ESM 导入中解决无扩展名路径报错的正确配置方案

2026-03-15 15:08

Go 语言中如何在函数内部定义带方法的结构体（模拟接口实现的正确姿势）

2026-03-15 15:16

如何在 Python 中优雅地调用登录成功后的函数

2026-03-15 15:26

如何在 OpenAI 响应中正确移除多行代码块的三重反引号（）标记

2026-03-15 15:39

眼镜到底有多暴利：标价799元的镜片进价仅15元

2026-03-15 15:47

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

class在c语言中的意思

在C语言中，"class" 是一个关键字，用于定义一个类。想了解更多class的相关内容，可以阅读本专题下面的文章。

951

2024.01.03

python中class的含义

本专题整合了python中class的相关内容，阅读专题下面的文章了解更多详细内容。

2025.12.06

DOM是什么意思

dom的英文全称是documentobjectmodel，表示文件对象模型，是w3c组织推荐的处理可扩展置标语言的标准编程接口；dom是html文档的内存中对象表示，它提供了使用javascript与网页交互的方式。想了解更多的相关内容，可以阅读本专题下面的文章。

4396

2024.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2993

2024.08.16

Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践，系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例，帮助开发者构建高效稳定的实时通信系统，适用于聊天应用、实时数据推送等场景。

2026.03.18