好吧,我知道是大半夜……,但我还是觉得赶紧花上半个小时,把这最新的想法分享出来是值得的~直接进入正题~
创新互联成立与2013年,公司以成都网站设计、网站制作、系统开发、网络推广、文化传媒、企业宣传、平面广告设计等为主要业务,适用行业近百种。服务企业客户成百上千,涉及国内多个省份客户。拥有多年网站建设开发经验。为企业提供专业的网站建设、创意设计、宣传推广等服务。 通过专业的设计、独特的风格,为不同客户提供各种风格的特色服务。
我们来模拟一个场景,需要你去抓去一个页面,然后这个页面有好多url也要分别去抓取,而进入这些子url后,还有数据要抓取。简单点,我们就按照三层来看,那我们的代码就是如下:
- def func_top(url):
- data_dict= {}
- #在页面上获取到子url
- sub_urls = xxxx
- data_list = []
- for it in sub_urls:
- data_list.append(func_sub(it))
- data_dict['data'] = data_list
- return data_dict
- def func_sub(url):
- data_dict= {}
- #在页面上获取到子url
- bottom_urls = xxxx
- data_list = []
- for it in bottom_urls:
- data_list.append(func_bottom(it))
- data_dict['data'] = data_list
- return data_dict
- def func_bottom(url):
- #获取数据
- data = xxxx
- return data
func_top是上层页面的处理函数,func_sub是子页面的处理函数,func_bottom是最深层页面的处理函数,func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。
如果正常情况下,这样确实已经满足需求了,但是偏偏这个你要抓取的网站可能极不稳定,经常链接不上,导致数据拿不到。
于是这个时候你有两个选择:
◆ 1. 遇到错误就停止,之后重新从断掉的位置开始重新跑
◆ 2. 遇到错误继续,但是要在之后重新跑一遍,这个时候已经有的数据不希望再去网站拉一次,而只去拉没有取到的数据
对第一种方案基本无法实现,因为如果别人网站的url调整顺序,那么你记录的位置就无效了。那么只有第二种方案,说白了,就是要把已经拿到的数据cache下来,等需要的时候,直接从cache里面取。
OK,目标已经有了,怎么实现呢?
如果是在C++中的,这是个很麻烦的事情,而且写出来的代码必定丑陋无比,然而庆幸的是,我们用的是Python,而Python对函数有装饰器。
所以实现方案也就有了:
定义一个装饰器,如果之前取到数据,就直接取cache的数据;如果之前没有取到,那么就从网站拉取,并且存入cache中.
代码如下:
- def get_dump_data(dir_name, url):
- m = hashlib.md5(url)
- filename = m.hexdigest()
- full_file_name = 'dumps/%s/%s' % (dir_name,filename)
- if os.path.isfile(full_file_name):
- return eval(file(full_file_name,'r').read())
- else:
- return None
- def set_dump_data(dir_name, url, data):
- if not os.path.isdir('dumps/'+dir_name):
- os.makedirs('dumps/'+dir_name)
- m = hashlib.md5(url)
- filename = m.hexdigest()
- full_file_name = 'dumps/%s/%s' % (dir_name,filename)
- f = file(full_file_name, 'w+')
- f.write(repr(data))
- f.close()
- def deco_dump_data(func):
- def func_wrapper(url):
- data = get_dump_data(func.__name__,url)
- if data is not None:
- return data
- data = func(url)
- if data is not None:
- set_dump_data(func.__name__,url,data)
- return data
- return func_wrapper
然后,我们只需要在每个func_top,func_sub,func_bottom都加上deco_dump_data这个装饰器即可~~
搞定!这样做最大的好处在于,因为top,sub,bottom,每一层都会dump数据,所以比如某个sub层数据dump之后,是根本不会走到他所对应的bottom层的,减少了大量的开销!
OK,就这样~ 人生苦短,我用Python!
原文链接:http://www.vimer.cn/2011/04/python%E8%A3%85%E9%A5%B0%E5%99%A8%E7%9A%84%E4%B8%80%E4%B8%AA%E5%A6%99%E7%94%A8.html
当前标题:你不知道的Python装饰器的一个妙用
网页链接:http://www.mswzjz.cn/qtweb/news17/501817.html
攀枝花网站建设、攀枝花网站运维推广公司-贝锐智能,是专注品牌与效果的网络营销公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 贝锐智能