你不知道的Python装饰器的一个妙用

好吧，我知道是大半夜……，但我还是觉得赶紧花上半个小时，把这最新的想法分享出来是值得的~直接进入正题~

创新互联成立与2013年，公司以成都网站设计、网站制作、系统开发、网络推广、文化传媒、企业宣传、平面广告设计等为主要业务，适用行业近百种。服务企业客户成百上千，涉及国内多个省份客户。拥有多年网站建设开发经验。为企业提供专业的网站建设、创意设计、宣传推广等服务。通过专业的设计、独特的风格，为不同客户提供各种风格的特色服务。

我们来模拟一个场景，需要你去抓去一个页面，然后这个页面有好多url也要分别去抓取，而进入这些子url后，还有数据要抓取。简单点，我们就按照三层来看，那我们的代码就是如下：

 
 
 
  
  
  def func_top(url):    
  
      data_dict= {}    
  
       
  
      #在页面上获取到子url    
  
      sub_urls = xxxx    
  
       
  
      data_list = []    
  
      for it in sub_urls:    
  
          data_list.append(func_sub(it))    
  
       
  
      data_dict['data'] = data_list    
  
       
  
      return data_dict    
  
       
  
  def func_sub(url):    
  
      data_dict= {}    
  
       
  
      #在页面上获取到子url    
  
      bottom_urls = xxxx    
  
       
  
      data_list = []    
  
      for it in bottom_urls:    
  
          data_list.append(func_bottom(it))    
  
       
  
      data_dict['data'] = data_list    
  
       
  
      return data_dict    
  
       
  
  def func_bottom(url):    
  
      #获取数据    
  
      data = xxxx    
  
      return data

func_top是上层页面的处理函数，func_sub是子页面的处理函数，func_bottom是最深层页面的处理函数，func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。

如果正常情况下，这样确实已经满足需求了，但是偏偏这个你要抓取的网站可能极不稳定，经常链接不上，导致数据拿不到。

于是这个时候你有两个选择:

◆ 1. 遇到错误就停止，之后重新从断掉的位置开始重新跑

◆ 2. 遇到错误继续，但是要在之后重新跑一遍，这个时候已经有的数据不希望再去网站拉一次，而只去拉没有取到的数据

对第一种方案基本无法实现，因为如果别人网站的url调整顺序，那么你记录的位置就无效了。那么只有第二种方案，说白了，就是要把已经拿到的数据cache下来，等需要的时候，直接从cache里面取。

OK，目标已经有了，怎么实现呢?

如果是在C++中的，这是个很麻烦的事情，而且写出来的代码必定丑陋无比，然而庆幸的是，我们用的是Python，而Python对函数有装饰器。

所以实现方案也就有了:

定义一个装饰器，如果之前取到数据，就直接取cache的数据;如果之前没有取到，那么就从网站拉取，并且存入cache中.

代码如下:

 
 
 
  
  
  def get_dump_data(dir_name, url):    
  
      m = hashlib.md5(url)    
  
      filename = m.hexdigest()    
  
      full_file_name = 'dumps/%s/%s' % (dir_name,filename)    
  
       
  
      if os.path.isfile(full_file_name):    
  
          return eval(file(full_file_name,'r').read())    
  
      else:    
  
          return None   
  
       
  
       
  
  def set_dump_data(dir_name, url, data):    
  
      if not os.path.isdir('dumps/'+dir_name):    
  
          os.makedirs('dumps/'+dir_name)    
  
       
  
      m = hashlib.md5(url)    
  
      filename = m.hexdigest()    
  
      full_file_name = 'dumps/%s/%s' % (dir_name,filename)    
  
       
  
      f = file(full_file_name, 'w+')    
  
      f.write(repr(data))    
  
      f.close()    
  
       
  
       
  
  def deco_dump_data(func):    
  
      def func_wrapper(url):    
  
          data = get_dump_data(func.__name__,url)    
  
          if data is not None:    
  
              return data    
  
       
  
          data = func(url)    
  
          if data is not None:    
  
              set_dump_data(func.__name__,url,data)    
  
          return data    
  
       
  
      return func_wrapper

然后，我们只需要在每个func_top,func_sub,func_bottom都加上deco_dump_data这个装饰器即可~~

搞定!这样做最大的好处在于，因为top,sub,bottom，每一层都会dump数据，所以比如某个sub层数据dump之后，是根本不会走到他所对应的bottom层的，减少了大量的开销!

OK，就这样~ 人生苦短，我用Python!

原文链接：http://www.vimer.cn/2011/04/python%E8%A3%85%E9%A5%B0%E5%99%A8%E7%9A%84%E4%B8%80%E4%B8%AA%E5%A6%99%E7%94%A8.html

当前标题：你不知道的Python装饰器的一个妙用
网页链接：http://www.mswzjz.cn/qtweb/news17/501817.html

攀枝花网站建设、攀枝花网站运维推广公司-贝锐智能，是专注品牌与效果的网络营销公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：贝锐智能

贝锐智能技术为您推荐以下文章