使用 Python 进行网页数据抓取：基础教程与最佳实践

碧海醫心

发布时间：2025-09-07 11:17:27

695人浏览过

来源于php中文网

原创

使用 python 进行网页数据抓取：基础教程与最佳实践

本文档旨在提供一份关于如何使用 Python 进行网页数据抓取的简明教程。我们将介绍使用 requests 和 BeautifulSoup4 库来抓取和解析网页的基本步骤，并提供示例代码。同时，强调了在进行网页抓取时需要注意的法律、道德和技术方面的考量，以确保负责任和高效的数据获取。

网页数据抓取基础

网页数据抓取，也称为网络爬虫或网页爬取，是从网站自动提取数据的过程。这通常涉及发送 HTTP 请求到网站，解析返回的 HTML 内容，并提取所需的信息。Python 提供了强大的库来简化这个过程。

1. 安装必要的库

首先，需要安装 requests 和 BeautifulSoup4 库。可以使用 pip 进行安装：

pip install requests beautifulsoup4

requests 库用于发送 HTTP 请求，而 BeautifulSoup4 库用于解析 HTML 和 XML 文档。

立即学习“Python免费学习笔记（深入）”；

2. 发送 HTTP 请求

使用 requests 库发送 GET 请求到目标 URL。

import requests

url = 'https://example.com'
response = requests.get(url)

if response.status_code == 200:
    print("请求成功！")
else:
    print(f"请求失败，状态码：{response.status_code}")

检查 response.status_code 是否为 200，表示请求成功。其他状态码（如 404）表示请求失败。

3. 解析 HTML 内容

使用 BeautifulSoup4 解析 HTML 内容。

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')

response.text 包含网页的 HTML 内容。html.parser 是 BeautifulSoup 使用的解析器。

4. 提取数据

使用 BeautifulSoup 的方法来查找和提取所需的数据。

Typeface

AI创意内容创作助手

下载

# 提取所有链接
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

# 提取标题
title = soup.find('title').text
print(f"网页标题：{title}")

find_all() 方法查找所有匹配的标签，而 find() 方法查找第一个匹配的标签。可以使用 CSS 选择器进行更精确的查找。

示例代码：完整示例

import requests
from bs4 import BeautifulSoup

def scrape_website(url):
    try:
        response = requests.get(url)
        response.raise_for_status()  # 检查请求是否成功

        soup = BeautifulSoup(response.text, 'html.parser')

        # 提取所有链接
        links = soup.find_all('a')
        print("链接：")
        for link in links:
            print(link.get('href'))

        # 提取标题
        title = soup.find('title').text
        print(f"\n网页标题：{title}")

    except requests.exceptions.RequestException as e:
        print(f"请求错误：{e}")
    except Exception as e:
        print(f"解析错误：{e}")

# 示例用法
url_to_scrape = 'https://example.com'
scrape_website(url_to_scrape)

使用 Google Cloud Natural Language API 进行文本分析

要使用 Google Cloud Natural Language API，需要先设置 Google Cloud 项目并启用 API。

创建 Google Cloud 项目：在 Google Cloud Console 中创建一个新项目。
启用 Natural Language API：在 API 库中搜索并启用 Natural Language API。
创建服务账号：创建一个服务账号，并授予其 Natural Language API 的访问权限。
下载服务账号密钥：下载服务账号的 JSON 密钥文件，并将其保存到本地。
安装 Google Cloud 客户端库：

pip install google-cloud-language

示例代码：使用 Natural Language API 进行实体分析

from google.cloud import language_v1

def analyze_entities(text):
    client = language_v1.LanguageServiceClient()
    document = language_v1.Document(content=text, type_=language_v1.Document.Type.PLAIN_TEXT)
    response = client.analyze_entities(document=document)

    entities = response.entities
    for entity in entities:
        print(f"实体名称：{entity.name}")
        print(f"实体类型：{language_v1.Entity.Type(entity.type_).name}")
        print(f"置信度：{entity.salience}")
        print("-" * 20)

# 示例用法
text_to_analyze = "Google, headquartered in Mountain View, unveiled the new Android phone at a conference. Sundar Pichai spoke."
analyze_entities(text_to_analyze)

注意事项与最佳实践

尊重 robots.txt：在开始抓取之前，检查网站的 robots.txt 文件，了解网站允许和禁止抓取的部分。
设置请求头：在发送 HTTP 请求时，设置 User-Agent 请求头，模拟浏览器行为，避免被网站屏蔽。

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)

处理异常：在代码中添加异常处理，处理请求失败、解析错误等情况。
控制抓取频率：避免对网站造成过大的负担，设置合理的抓取频率。可以使用 time.sleep() 函数来添加延迟。

import time

time.sleep(1)  # 延迟 1 秒

数据存储：将抓取到的数据存储到数据库或文件中，方便后续分析和使用。
合法合规：确保你的抓取行为符合法律法规和网站的使用条款。

总结

本文介绍了使用 Python 进行网页数据抓取的基本步骤和最佳实践。通过使用 requests 和 BeautifulSoup4 库，可以方便地抓取和解析网页数据。同时，使用 Google Cloud Natural Language API 可以对抓取到的文本进行分析。在进行网页抓取时，请务必遵守相关法律法规和网站的使用条款，并采取措施避免对网站造成过大的负担。

如何精准提取政府网站正文内容并剔除冗余页眉文本

Python爬虫入门_requests库使用

Docker 中 Headless Chrome 文本渲染失败的根源与解决方案

如何绕过 Cloudflare 防护成功抓取 Stylevana 网站商品数据

如何使用 Selenium 动态定位并点击含日期的下载链接

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

337

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

pip安装使用方法

安装步骤：1、确保Python已经正确安装在您的计算机上；2、下载“get-pip.py”脚本；3、按下Win + R键，然后输入cmd并按下Enter键来打开命令行窗口；4、在命令行窗口中，使用cd命令切换到“get-pip.py”所在的目录；5、执行安装命令；6、验证安装结果即可。大家可以访问本专题下的文章，了解pip安装使用方法的更多内容。

373

2023.10.09

更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容，请阅读专题下面的文章。

437

2024.12.20

pip设置清华源

设置方法：1、打开终端或命令提示符窗口；2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件；3、打开pip.conf文件，然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容，这将把pip的镜像源设置为清华大学的镜像源；4、保存并关闭文件即可。

804

2024.12.23