0

0

如何用Python爬取网页数据?requests+BeautifulSoup方案

爱谁谁

爱谁谁

发布时间:2025-07-11 14:17:01

|

849人浏览过

|

来源于php中文网

原创

使用 python 抓取网页数据时,requests 和 beautifulsoup 是最常用的组合。requests 用于发送 http 请求并获取网页内容,而 beautifulsoup 则用于解析 html 并提取所需数据。1. 安装依赖库:使用 pip install requests beautifulsoup4 或加国内源安装;2. 获取网页内容:通过 requests.get() 方法发送请求,并加入异常处理和 headers 模拟浏览器访问;3. 解析 html:用 beautifulsoup 初始化解析器,利用 find、find_all 和 select 等方法提取数据;4. 注意编码问题、结构不稳定及请求频率控制等小技巧避免踩坑。这套方案适用于静态页面,且简单高效。

如何用Python爬取网页数据?requests+BeautifulSoup方案

想用 Python 父取网页数据,requests 和 BeautifulSoup 是最常见、也最容易上手的组合。简单来说,requests 用来下载网页内容,BeautifulSoup 用来解析 HTML 并提取你需要的数据。这套方案适合静态页面,不涉及 JavaScript 渲染。

如何用Python爬取网页数据?requests+BeautifulSoup方案

准备工作:安装依赖库

使用前需要先安装两个库,命令如下:

pip install requests beautifulsoup4

这两个库都很轻量,安装过程一般不会出问题。如果网络不好,可以加国内源,比如清华镜像:

立即学习Python免费学习笔记(深入)”;

如何用Python爬取网页数据?requests+BeautifulSoup方案
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests beautifulsoup4

第一步:获取网页内容(requests)

爬虫的第一步是发送 HTTP 请求,拿到网页的 HTML 内容。requests 的 get 方法就能搞定:

import requests

url = 'https://example.com'
response = requests.get(url)

# 检查是否成功获取
if response.status_code == 200:
    html_content = response.text
else:
    print("请求失败")

这里需要注意几个点:

如何用Python爬取网页数据?requests+BeautifulSoup方案
  • 加入异常处理,比如超时或连接错误:

    try:
        response = requests.get(url, timeout=10)
    except requests.exceptions.RequestException as e:
        print(e)
  • 有些网站会检测 User-Agent,防止你被拒绝访问,可以加上 headers:

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
    }
    response = requests.get(url, headers=headers)

第二步:解析HTML并提取数据(BeautifulSoup)

有了 HTML 内容后,下一步就是从中提取有用的信息。BeautifulSoup 提供了非常方便的方法来查找标签和内容。

MiroThinker
MiroThinker

MiroMind团队推出的研究型开源智能体,专为深度研究与复杂工具使用场景设计

下载
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, 'html.parser')

# 示例:提取所有链接
for link in soup.find_all('a'):
    print(link.get('href'))

# 示例:提取特定标题
title = soup.find('h1').text
print(title)

常用的查找方法包括:

  • find(tag, attrs):找第一个匹配的标签
  • find_all(tag, attrs):找所有匹配的标签
  • 支持 CSS 选择器:soup.select('div.content > p')

举个实际例子,比如你想提取某个新闻网站的文章标题和正文,可以这样写:

title = soup.find('h1', class_='article-title').text.strip()
content = soup.find('div', id='article-content').text.strip()

注意类名要用 class_,因为 class 是 Python 关键字。


小技巧:避免踩坑

这个组合虽然简单,但还是有几个容易忽略的地方:

  • 编码问题:有时返回的内容乱码,记得检查响应头的编码方式:

    response.encoding = response.apparent_encoding
  • 结构不稳定:网页结构可能经常变,建议写代码时多加判断,比如:

    title_tag = soup.find('h1')
    title = title_tag.text if title_tag else '未知标题'
  • 不要太快请求:频繁访问可能会被封 IP,适当加点延迟:

    import time
    time.sleep(1)  # 每次请求间隔1秒

基本上就这些。整个流程下来,你会发现 requests 负责“拿”,BeautifulSoup 负责“挑”,配合起来很顺手。对于大多数静态网页来说,这套组合已经够用了,也不需要太复杂的配置。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

pip安装使用方法
pip安装使用方法

安装步骤:1、确保Python已经正确安装在您的计算机上;2、下载“get-pip.py”脚本;3、按下Win + R键,然后输入cmd并按下Enter键来打开命令行窗口;4、在命令行窗口中,使用cd命令切换到“get-pip.py”所在的目录;5、执行安装命令;6、验证安装结果即可。大家可以访问本专题下的文章,了解pip安装使用方法的更多内容。

339

2023.10.09

更新pip版本
更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容,请阅读专题下面的文章。

415

2024.12.20

pip设置清华源
pip设置清华源

设置方法:1、打开终端或命令提示符窗口;2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件;3、打开pip.conf文件,然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容,这将把pip的镜像源设置为清华大学的镜像源;4、保存并关闭文件即可。

761

2024.12.23

python升级pip
python升级pip

本专题整合了python升级pip相关教程,阅读下面的文章了解更多详细内容。

349

2025.07.23

class在c语言中的意思
class在c语言中的意思

在C语言中,"class" 是一个关键字,用于定义一个类。想了解更多class的相关内容,可以阅读本专题下面的文章。

469

2024.01.03

python中class的含义
python中class的含义

本专题整合了python中class的相关内容,阅读专题下面的文章了解更多详细内容。

15

2025.12.06

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

427

2023.11.09

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

1

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号