如何使用scrapy框架循环爬京东数据后导入Mysql的方法

零到壹度

发布时间：2018-03-30 10:20:23

2141人浏览过

来源于php中文网

原创

本文主要为大家分享一篇J如何使用scrapy框架循环爬京东数据后导入Mysql的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧，希望能帮助到大家。

京东是有反爬机制的，所以我用到用户代理、伪装成浏览器。

爬取数据是京东商城的手机信息 url：https://list.jd.com/list.html?cat=9987,653,655&page=1

大概是9000多条数据，不在列表之内的商品没有算在内。

遇到的问题：

1、用户代理最好是用方法（use_proxy）封装起来，因为自己之前就是把代码直接写在parse下，遇到not enough values to unpack的问题，我实在不知道错误出在哪一句，就每句代码之后print，发现问题出在urlopen（），但是我反复试、查网上，也没发现错误在哪，写成方法就解决了，现在想来可能是因为parse方法是处理respose。

2、在把数据导入mysql之前，我先试着把数据导入到文件中，但是在导入中，发现x.txt的大小一直是0kb,1kb在变，没有增长，想想应该是覆盖了，本来是认为自己fh.close()写的位置不对,后来突然想到

Cardify卡片工坊

使用Markdown一键生成精美的小红书知识卡片

下载

fh = open("D:/pythonlianxi/result/4.txt", "w")写错了，应该要把'w'变成'a'。

3、导入数据库，碰到的问题主要是中文编码问题，要先打开mysql, show variables like '%char%';查看数据库的字符集编码形式，用对应的形式，比如我自己是utf8，用gbk就不好使。另外，在写连接mysql时 charset='utf8'不要忘记。

下面是具体代码：

<span style="font-family: 微软雅黑, "Microsoft YaHei"; font-size: 16px;">conn = pymysql.connect(host="127.0.0.1", user="root", passwd="root", db="jingdong", charset="utf8")<br/></span>

<span style="font-family: 微软雅黑, "Microsoft YaHei"; font-size: 16px;">import scrapy<br/>from scrapy.http import Request<br/>from jingdong.items import JingdongItem<br/>import re<br/>import urllib.error<br/>import urllib.request<br/>import pymysql<br/>class JdSpider(scrapy.Spider):<br/>    name = 'jd'   <br/>    allowed_domains = ['jd.com']    <br/>    #start_urls = ['http://jd.com/']    <br/>     header = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"} <br/>         #fh = open("D:/pythonlianxi/result/4.txt", "w")    <br/>         def start_requests(self):      <br/>             return [Request("https://list.jd.com/list.html?cat=9987,653,655&page=1",callback=self.parse,headers=self.header,meta={"cookiejar":1})]   <br/>              def use_proxy(self,proxy_addr,url):       <br/>               try:<br/>            req=urllib.request.Request(url)<br/>            req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36")<br/>            proxy = urllib.request.ProxyHandler({"http": proxy_addr})<br/>            opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)<br/>            urllib.request.install_opener(opener)<br/>            data=urllib.request.urlopen(req).read().decode("utf-8","ignore")           <br/>             return data      <br/>       except urllib.error.URLError as e:         <br/>          if hasattr(e,"code"):                <br/>             print(e.code)            <br/>          if hasattr(e,"reason"):               <br/>             print(e.reason)        <br/>          except Exception as e:        <br/>             print(str(e))   <br/>              <br/>    def parse(self, response):<br/>        item=JingdongItem()<br/>        proxy_addr = "61.135.217.7:80"    <br/>      try:<br/>            item["title"]=response.xpath("//p[@class='p-name']/a[@target='_blank']/em/text()").extract()<br/>            item["pricesku"] =response.xpath("//li[@class='gl-item']/p/@data-sku").extract()            <br/>            <br/>            for j in range(2,166):<br/>                url="https://list.jd.com/list.html?cat=9987,653,655&page="+str(j)               <br/>                 print(j)                <br/>                 #yield item               <br/>                  yield Request(url)<br/>            pricepat = '"p":"(.*?)"'          <br/>              personpat = '"CommentCountStr":"(.*?)",'            <br/>              print("2k")            <br/>              #fh = open("D:/pythonlianxi/result/5.txt", "a")            <br/>              conn = pymysql.connect(host="127.0.0.1", user="root", passwd="root", db="jingdong", charset="utf8")              <br/>              <br/>         for i in range(0,len(item["pricesku"])):<br/>                priceurl="https://p.3.cn/prices/mgets?&ext=11000000&pin=&type=1&area=1_72_4137_0&skuIds="+item["pricesku"][i]<br/>                personurl = "https://club.jd.com/comment/productCommentSummaries.action?referenceIds=" + item["pricesku"][i]<br/>                pricedata=self.use_proxy(proxy_addr,priceurl)<br/>                price=re.compile(pricepat).findall(pricedata)<br/>                persondata = self.use_proxy(proxy_addr,personurl)<br/>                person = re.compile(personpat).findall(persondata)<br/>         <br/>                title=item["title"][i]               <br/>                print(title)<br/>                price1=float(price[0])                <br/>                #print(price1)                <br/>                person1=person[0]<br/>                #fh.write(tile+"\n"+price+"\n"+person+"\n")                <br/>                cursor = conn.cursor()<br/>                sql = "insert into jd(title,price,person) values(%s,%s,%s);"               <br/>                params=(title,price1,person1)                <br/>                print("4")<br/>                cursor.execute(sql,params)<br/>                conn.commit()            <br/>                <br/>                #fh.close()<br/></span>

<span style="font-family: 微软雅黑, "Microsoft YaHei"; font-size: 16px;">                conn.close()            <br/>                return item        <br/>                except Exception as e:            <br/>                print(str(e))</span><span style="font-family: 微软雅黑, "Microsoft YaHei";"><br/></span>

相信聪明的你已经学会了，还等什么，赶快去实践吧。

python人马兽系列相关插件与工具推荐

如何合法、稳健地爬取 Yelp 数据：规避 503 错误与封禁风险

如何合法合规地爬取 Yelp 数据：避免 503 错误与封禁风险

Scrapy 中跨解析函数传递变量的正确方法

Scrapy中跨解析函数传递变量的正确方法

京东

京东app是一款移动购物软件，具有商品搜索/浏览、评论查阅、商品购买、在线支付/货到付款、订单查询、物流跟踪、晒单/评价、返修退换货等功能，为您打造简单、快乐的生活体验。有需要的小伙伴快来保存下载体验吧！

下载

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04