扫码关注官方订阅号
python菜鸟 想做一个简单的爬虫 求教程 ps:一般公司做爬虫采集的话常用什么语言
认证0级讲师
以前学习的时候整理的一份教程:
Python 爬虫教程
简单的,不用框架的,可以看看requests和beautifulsoup这两个库,如果熟悉python语法,看完这两个,差不多能写个简单的爬虫了。
一般公司搞爬虫,我见过的,多用java或者python。
百度搜索python + 爬虫
简单的爬虫,其实用框架最简单了,看看网上的入门贴 推荐scrapy
网终上确实有许多的关于Python如何写一个简单爬虫的文章,但这些文章大多只能算是一个例子,能真正应用的还是挺少的。爬虫我认为就是获取内容、分析内容、再存储就OK了,如果只是才接触的话,可以直接Google之就行了。如果是深入的研究的话,可以在Github上找找代码来看下。
我自己对于Python也只是一知半解,希望有所帮助。
可以看看我的资料scrapy
scrapy 节约你大量时间github上有很多例子
贴一段爬天猫的代码:
def areaFlow(self, parturl, tablename, date): while True: url = parturl + self.lzSession + '&days=' + str(date) + '..' + str(date) print url try: html = urllib2.urlopen(url, timeout=30) except Exception, ex: writelog(str(ex)) writelog(str(traceback.format_exc())) break; responegbk = html.read() try: respone = responegbk.encode('utf8') except Exception, ex: writelog(str(ex)) # 如果lzSession过期则会返回errcode:500的错误 if respone.find('"errcode":500') != -1: print 'nodata' break; # 如果时间不对则返回errcode:100的错误 elif respone.find('"errcode":100') != -1: print 'login error' self.catchLzsession() else: try: resstr = re.findall(r'(?<=\<)(.*?)(?=\/>)', respone, re.S) writelog('地域名称 浏览量 访问量') dictitems = [] for iarea in resstr: items = {} areaname = re.findall(r'(?<=name=\\\")(.*?)(?=\\\")', iarea, re.S) flowamount = re.findall(r'(?<=浏览量:)(.*?)(?=<)', iarea, re.S) visitoramount = re.findall(r'(?<=访客数:)(.*?)(?=\\\")', iarea, re.S) print '%s %s %s' % (areaname[0], flowamount[0], visitoramount[0]) items['l_date'] = str(self.nowDate) items['vc_area_name'] = str(areaname[0]) items['i_flow_amount'] = str(flowamount[0].replace(',', '')) items['i_visitor_amount'] = str(visitoramount[0].replace(',', '')) items['l_catch_datetime'] = str(self.nowTime) dictitems.append(items) writeInfoLog(dictitems) insertSqlite(self.sqlite, tablename, dictitems) break except Exception,ex: writelog(str(ex)) writelog(str(traceback.format_exc())) time.sleep(1)
Scrapy是比较好的选择,相对比较简单,这里有入门教程
可以先用一个爬虫框架实现业务逻辑,如scrapy,然后根据自己的需求,慢慢的替换掉框架。最后,你就会发现, 你自己实现了一个爬虫框架
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
以前学习的时候整理的一份教程:
Python 爬虫教程
简单的,不用框架的,可以看看requests和beautifulsoup这两个库,如果熟悉python语法,看完这两个,差不多能写个简单的爬虫了。
一般公司搞爬虫,我见过的,多用java或者python。
百度搜索python + 爬虫
简单的爬虫,其实用框架最简单了,看看网上的入门贴
推荐scrapy
网终上确实有许多的关于Python如何写一个简单爬虫的文章,但这些文章大多只能算是一个例子,能真正应用的还是挺少的。爬虫我认为就是获取内容、分析内容、再存储就OK了,如果只是才接触的话,可以直接Google之就行了。如果是深入的研究的话,可以在Github上找找代码来看下。
我自己对于Python也只是一知半解,希望有所帮助。
可以看看我的资料scrapy
scrapy 节约你大量时间
github上有很多例子
贴一段爬天猫的代码:
Scrapy是比较好的选择,相对比较简单,这里有入门教程
可以先用一个爬虫框架实现业务逻辑,如scrapy,然后根据自己的需求,慢慢的替换掉框架。最后,你就会发现, 你自己实现了一个爬虫框架