Python3实战爬虫之爬取京东图书的图文详解

黄舟

发布时间：2017-10-09 10:22:37

3194人浏览过

来源于php中文网

原创

最近在学习python3，下面这篇文章主要给大家介绍了关于python3实战爬虫之爬取京东图书图片的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面来一起看看吧。

前言

最近工作中遇到一个需求，需要将京东上图书的图片下载下来，假如我们想把京东商城图书类的图片类商品图片全部下载到本地，通过手工复制粘贴将是一项非常庞大的工程，此时，可以用Python网络爬虫实现，这类爬虫称为图片爬虫，接下来，我们将实现该爬虫。

实现分析

首先，打开要爬取的第一个网页，这个网页将作为要爬取的起始页面。我们打开京东，选择图书分类，由于图书所有种类的图书有很多，我们选择爬取所有编程语言的图书图片吧，网址为：https://list.jd.com/list.html?cat=1713,3287,3797&page=1&sort=sort_rank_asc&trans=1&JL=6_0_0#J_main

立即学习“Python免费学习笔记（深入）”；

如图：

进去后，我们会发现总共有251页。

那么我们怎么才能自动爬取第一页以外的其他页面呢？

可以单击“下一页”，观察网址的变化。在单击了下一页之后，发现网址变成了https://list.jd.com/list.html?cat=1713,3287,3797&page=2&sort=sort_rank_asc&trans=1&JL=6_0_0#J_main。

我们可以发现，在这里要获取第几页是通过URL网址识别的，即通过GET方式请求的。在这个GET请求中，有多个字段，其中有一个字段为page，对应值为2，由此，我们可以得到该网址中的关键信息为：https://list.jd.com/list.html?cat=1713,3287,3797&page=2。接下来，我们根据推测，将page=2改成page=6，发现我们能够成功进入第6页。

由此，我们可以想到自动获取多个页面的方法：可以使用for循环实现，每次循环后，对应的网址中page字段加1，即自动切换到下一页。

在每页中，我们都要提取对应的图片，可以使用正则表达式匹配源码中图片的链接部分，然后通过urllib.request.urlretrieve()将对应链接的图片保存到本地。

但是这里有一个问题，该网页中的图片不仅包括列表中的商品图片，还包括旁边的一些无关图片，所以我们可以先进行一次信息过滤，第一次信息过滤将中间的商品列表部分数据留下，将其他部分的数据过滤掉。可以单击右键，然后查看网页的源代码，如图：

可以通过商品列表中的第一个商品名为“JAVA从入门到精通”快速定位到源码中的对应位置，然后观察其商品列表部分的特殊标识，可以看到，其上方有处“

所以，如果要进行第一次过滤，我们的正则表达式可以构造为：

Figma

Figma 是一款基于云端的 UI 设计工具，可以在线进行产品原型、设计、评审、交付等工作。

下载

进行了第一次信息过滤后，留下来的图片链接就是我们想爬取的图片了，下一步需要在第一次过滤的基础上，再将图片链接信息过滤出来。

此时，需要观察网页中对应图片的源代码，我们观察到其中两张图片的对应源码：

图片1：

 @@##@@

图片2：

@@##@@

对比两张图片代码，发现其基本格式是一样的，只是图片的链接网址不一样，所以此时，我们根据该规律构造出提取图片链接的正则表达式：

@@##@@

刚开始到这里，我以为就结束了，后来在爬取的过程中我发现每一页都少爬取了很多图片，再次查看源码发现，每页后面的几十张图片又是另一种格式：

@@##@@

所以，完整的正则表达式应该是这两种格式的或：

@@##@@|@@##@@

到这里，我们根据该正则表达式，就可以提取出一个页面中所有想要爬取的图片链接。

所以，根据上面的分析，我们可以得到该爬虫的编写思路与过程，具体如下：

建立一个爬取图片的自定义函数，该函数负责爬取一个页面下的我们想爬取的图片，爬取过程为：首先通过urllib.request.utlopen(url).read()读取对应网页的全部源代码，然后根据上面的第一个正则表达式进行第一次信息过滤，过滤完成之后，在第一次过滤结果的基础上，根据上面的第二个正则表达式进行第二次信息过滤，提取出该网页上所有的目标图片的链接，并将这些链接地址存储的一个列表中，随后遍历该列表，分别将对应链接通过urllib.request.urlretrieve(imageurl,filename=imagename)存储到本地，为了避免程序中途异常崩溃，我们可以建立异常处理。
通过for循环将该分类下的所有网页都爬取一遍，链接可以构造为url='https://list.jd.com/list.html?cat=1713,3287,3797&page=' + str(i)

完整的代码如下：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import re
import urllib.request
import urllib.error
import urllib.parse


sum = 0
def craw(url,page):
 html1=urllib.request.urlopen(url).read()
 html1=str(html1)
 pat1=r''
 result1=re.compile(pat1).findall(html1)
 result1=result1[0]
 pat2=r'@@##@@|@@##@@'
 imagelist=re.compile(pat2).findall(result1)
 x=1
 global sum
 for imageurl in imagelist:
  imagename='./books/'+str(page)+':'+str(x)+'.jpg'
  if imageurl[0]!='':
   imageurl='http://'+imageurl[0]
  else:
   imageurl='http://'+imageurl[1]
  print('开始爬取第%d页第%d张图片'%(page,x))

  try:
   urllib.request.urlretrieve(imageurl,filename=imagename)
  except urllib.error.URLError as e:
   if hasattr(e,'code') or hasattr(e,'reason'):
    x+=1

  print('成功保存第%d页第%d张图片'%(page,x))
  x+=1
  sum+=1

for i in range(1,251):
 url='https://list.jd.com/list.html?cat=1713,3287,3797&page='+str(i)
 craw(url,i)
print('爬取图片结束，成功保存%d张图'%sum)

运行结果如下：

Python3实战爬虫之爬取京东图书的图文详解

总结

Python 3 中字节串格式化：如何正确将内置类型转换为 bytes

python3如何提取汉字

python 反引号怎么打

python3有serial库吗

python3.6有什么优势

京东

京东app是一款移动购物软件，具有商品搜索/浏览、评论查阅、商品购买、在线支付/货到付款、订单查询、物流跟踪、晒单/评价、返修退换货等功能，为您打造简单、快乐的生活体验。有需要的小伙伴快来保存下载体验吧！

下载

相关专题

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27

拼多多赚钱的5种方法拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变，以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销，利用平台社交电商红利实现盈利。

119

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页，请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”，点击“添加新页面”并输入网址。若要使用主页按钮，需在“外观”设置中开启“显示主页按钮”并设定网址。

2026.01.26

苹果官方查询网站苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行，可用于查询序列号（SN）对应的保修状态、激活日期及技术支持服务。此外，查找丢失设备请使用 iCloud.com/find，购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

184

2026.01.26

npd人格什么意思 npd人格有什么特征

NPD（Narcissistic Personality Disorder）即自恋型人格障碍，是一种心理健康问题，特点是极度夸大自我重要性、需要过度赞美与关注，同时极度缺乏共情能力，背后常掩藏着低自尊和不安全感，影响人际关系、工作和生活，通常在青少年时期开始显现，需由专业人士诊断。

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心（Windows Defender）可通过系统设置暂时关闭，或使用组策略/注册表永久关闭。最简单的方法是：进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置，将实时保护等选项关闭。

2026.01.26

2026年春运抢票攻略大全春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务，并强调官方渠道唯一性与信息安全。

178

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例，应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元，专项扣除 1000 元，专项附加扣除 2000 元，当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元，对应税率为 3%，速算扣除数为 0，则当月应纳税额为 2000×3% = 60 元。

2026.01.26