Python中的爬虫实战：猫眼电影爬虫

WBOY

发布时间：2023-06-10 12:27:26

3693人浏览过

来源于php中文网

原创

随着互联网技术的快速发展，网络上的信息量越来越庞大。猫眼电影作为国内领先的电影数据平台，为用户提供了全面的电影信息服务。本文将介绍如何利用python编写简单的猫眼电影爬虫，获取电影相关数据。

爬虫概述

爬虫，即网络爬虫，是一种自动化获取互联网数据的程序。它可以通过网络上的链接，访问目标网站并获取数据，实现信息的自动化采集。Python是一种功能强大的编程语言，广泛应用于数据处理、网络爬虫、可视化图表等方面。

爬虫实现

本文的猫眼电影爬虫将通过Python的requests和BeautifulSoup库实现。Requests是Python HTTP库，可以轻松发送网页请求，而BeautifulSoup是Python的HTML解析库，可以快速解析HTML页面。在开始之前，需要安装这两个库。

2.1 导入库

打开Python编辑器，新建一个Python文件。首先需要导入所需的库：

立即学习“Python免费学习笔记（深入）”；

import requests
from bs4 import BeautifulSoup
import csv

2.2 创建请求链接

接下来创建请求链接。打开猫眼电影网站，找到目标电影的链接，并将其复制下来。这里以电影《唐人街探案3》为例：

url = 'https://maoyan.com/films/1250952'

2.3 发送请求

MakeSong

AI音乐生成，生成高质量音乐，仅需30秒的时间

下载

创建headers，设置请求头信息，头信息一般包含User-Agent、Referer、Cookie等信息，模拟实际浏览器访问网页的请求方式。这里以Chrome浏览器为例。然后使用requests库发送请求，获取网页HTML代码：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;Win64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url,headers=headers)
html = response.text

2.4 解析HTML代码

将获取到的HTML代码转化为BeautifulSoup对象，使用BeautifulSoup库解析HTML代码，获取目标数据。由于猫眼电影网站HTML代码结构比较复杂，需要深入掌握HTML和BeautifulSoup的相关知识。

soup = BeautifulSoup(html,'html.parser')
movie_title = soup.find('h1',class_='name').text
movie_info = soup.find_all('div',class_='movie-brief-container')[0]
movie_type = movie_info.find_all('li')[0].text 
movie_release_data = movie_info.find_all('li')[2].text 
movie_actors = movie_info.find_all('li')[1].text 
movie_score = soup.find('span',class_='score-num').text

2.5 保存数据

处理完HTML页面之后，需要将获取到的数据保存到本地。这里使用Python的csv库来存储数据。csv库可以将数据转化为CSV格式，方便后续处理。

with open('movie.csv','w',newline='',encoding='utf-8-sig') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['电影名称',movie_title])
    writer.writerow(['电影类型',movie_type])
    writer.writerow(['上映日期',movie_release_data])
    writer.writerow(['演员阵容',movie_actors])
    writer.writerow(['豆瓣评分',movie_score])

整个代码如下：

import requests
from bs4 import BeautifulSoup
import csv

url = 'https://maoyan.com/films/1250952'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;Win64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url,headers=headers)
html = response.text
soup = BeautifulSoup(html,'html.parser')
movie_title = soup.find('h1',class_='name').text
movie_info = soup.find_all('div',class_='movie-brief-container')[0]
movie_type = movie_info.find_all('li')[0].text 
movie_release_data = movie_info.find_all('li')[2].text 
movie_actors = movie_info.find_all('li')[1].text 
movie_score = soup.find('span',class_='score-num').text 
with open('movie.csv','w',newline='',encoding='utf-8-sig') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['电影名称',movie_title])
    writer.writerow(['电影类型',movie_type])
    writer.writerow(['上映日期',movie_release_data])
    writer.writerow(['演员阵容',movie_actors])
    writer.writerow(['豆瓣评分',movie_score])

总结

本文介绍了如何使用Python的requests和BeautifulSoup库实现猫眼电影爬虫。通过发送网络请求、解析HTML代码、保存数据等步骤，我们可以轻松地获取到目标电影相关数据，并将其存储到本地。网络爬虫技术在数据采集、数据挖掘等方面具有广泛的应用价值，我们可以通过不断学习提升自己的技术水平，在实践中不断探索。

如何在 Selenium 中高效等待元素 ID 出现（支持超长加载场景）

Python进程信号处理_signal模块实践

Python函数递归深度限制_递归调用风险说明

Python带参数装饰器如何实现_嵌套函数分析

Python super函数原理_super使用场景

相关标签:

chrome beautifulsoup Cookie 对象 http 自动化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python中的自然语言处理库nltk详解下一篇：Python中的线性回归模型详解

作者最新文章

微信朋友圈怎么定时发送微信朋友圈定时发布设置方法【教程】

2026-01-06 09:59

苹果手机怎么定时发朋友圈 iPhone微信朋友圈自动发布方法【步骤】

2026-01-08 11:11

微信朋友圈能定时发送吗微信朋友圈定时发送功能开启方法

2026-01-09 08:15

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

微信怎么设置自动发朋友圈微信朋友圈定时托管操作详解

2026-02-03 04:49

2026微信定时发朋友圈教程微信朋友圈延迟发送设置技巧

2026-02-04 08:23

mysql如何获取系统时间_mysql now与sysdate区别

2026-03-02 11:02

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

chrome什么意思

chrome是浏览器的意思，由Google开发的网络浏览器，它在2008年首次发布，并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容，供大家免费下载体验。

1026

2023.08.11

chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

823

2023.11.06

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

Cookie 是一种在用户计算机上存储小型文本文件的技术，用于在用户与网站进行交互时收集和存储有关用户的信息。当用户访问一个网站时，网站会将一个包含特定信息的 Cookie 文件发送到用户的浏览器，浏览器会将该 Cookie 存储在用户的计算机上。之后，当用户再次访问该网站时，浏览器会向服务器发送 Cookie，服务器可以根据 Cookie 中的信息来识别用户、跟踪用户行为等。

6495

2023.06.30

document.cookie获取不到怎么解决

document.cookie获取不到的解决办法：1、浏览器的隐私设置；2、Same-origin policy；3、HTTPOnly Cookie；4、JavaScript代码错误；5、Cookie不存在或过期等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

366

2023.11.23

阻止所有cookie什么意思

阻止所有cookie意味着在浏览器中禁止接受和存储网站发送的cookie。阻止所有cookie可能会影响许多网站的使用体验，因为许多网站使用cookie来提供个性化服务、存储用户信息或跟踪用户行为。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

441

2024.02.23

cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容，阅读专题下面的文章了解更详细的内容。

2025.08.19

http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

487

2023.11.09

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板