用Python标准库修改搜索引擎获取结果

Python标准库在长时间的使用中需要不断的学习。下面我们就看看如何才能更好的掌握相关的技术信息。希望对大家之后的使用和学习有所帮助。下面的就是想大家介绍下相关的使用方法。

公司主营业务:成都网站设计、成都做网站、移动网站开发等业务。帮助企业客户真正实现互联网宣传,提高企业的竞争能力。创新互联是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化,感谢他们对我们的高要求,感谢他们从不同领域给我们带来的挑战,让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。创新互联推出东光免费做网站回馈大家。

我输入的关键字作为地址参数传递给某个程序,这个程序就会返回一个页面,上面包括顶部(logo和搜索UI)/结果部分/底部(版权信息部分),我们要得到的就是中间结果部分,这个可以用Python标准库的urllib中的urlopen方法得到整个页面的字符串,然后再解析这些字符串,完全有办法把中间结果部分抽取出来,抽出着串字符串,加上自己的头部和顶部和底部,那样搜索小偷的雏形就大概完成了,下面先写个测试代码。

 
 
 
  1. [code]   
  2. # Search Thief   
  3. # creator: Singo   
  4. # date: 2007-8-24   
  5. import urllib   
  6. import re   
  7. class SearchThief:   
  8. " " "the google thief " " "   
  9. global path,targetURL   
  10. path = "pages\\ "   
  11. # targetURL = "http://www.google.cn/search?complete=1&hl=zh-CN&q= "   
  12. targetURL = "http://www.baidu.com/s?wd= "   
  13. def __init__(self,key):   
  14. self.key = key   
  15. def getPage(self):   
  16. webStr = urllib.urlopen(targetURL+self.key).read() # get the page string form the url   
  17. self.setPageToFile(webStr)   
  18. def setPageToFile(self,webStr):   
  19. rereSetStr = re.compile( "\r ")   
  20. self.key = reSetStr.sub( " ",self.key) # replace the string "\r "   
  21. targetFile = file(path+self.key+ ".html ", "w ") # open the file for "w "rite   
  22. targetFile.write(webStr)   
  23. targetFile.close()   
  24. print "done "   
  25. inputKey = raw_input( "Enter you want to search --> ")   
  26. obj = SearchThief(inputKey)   
  27. obj.getPage()   
  28. [/code]  

这里只是要求用户输入一个关键字,然后向搜索引擎提交请求,把返回的页面保存到一个目录下,这只是一个测试的例子,如果要做真正的搜索小偷,完全可以不保存这个页面,把抽取出来的字符串加入到我们预先设计好的模板里面,直接以web的形式显示在客户端,那样就可以实现利用盗取某些搜索引擎的结果并构造新的页面呈现。

看一下百度搜索结果页的源码,在搜索结构的那个table标签前面有个

的标签,我们可以根据这个标签得到下移两行的结果集,于是增加一个方法。

 
 
 
  1. getResultStr()   
  2. [code]   
  3. def getResultStr(self,webStr):   
  4. webStrwebStrList = webStr.read().split( "\r\n ")   
  5. line = webStrList.index( "  
 ")+2 # get the line from "  
 " move 2 line   
  • resultStr = webStrList[line]   
  • return resultStr   
  • [/code]  
  • 既然得到结果列表,那么我们要把这个结果列表放到自己定义的页面里面,我们可以说这个页面叫模板:

     
     
     
    1. [code]   
    2.    
    3.    
    4.    
    5. < http-equivhttp-equiv= "Content-Type " content= "text/html; charset=gb2312 " />   
    6.  SuperSingo搜索-%title%    
    7.    
    8.    
    9.    
    10.    
    11.   
       
  •    
  •    
  •    
  •    
  •    
  •    
  •    
  • 工找到:×××条记录,耗时×××秒   
  •    
  •  %result%    
  •   
  • 这里搜索的结构全都是百度那里过来的哦!其中%title%和%result%是等待替换的字符,为了替换这些字符,我们再增加一个方法, #p#

     
     
     
    1. [b]reCreatePage():[/b]   
    2. [code]   
    3. def reCreatePage(self,resultStr):   
    4. demoStr = urllib.urlopen(demoPage).read() # get the demo page string   
    5. rereTitle = re.compile( "%title% ")   
    6. demoStr = reTitle.sub(self.key,demoStr) # re set the page title   
    7. rereResult = re.compile( "%result% ")   
    8. demoStr = reResult.sub(resultStr,demoStr) # re set the page result   
    9. return demoStr   
    10. [/code]  

    这样就可以把模板中的%title%和%result%替换成我们想要的标签了。

     
     
     
    1. [code]   
    2. # the main programme   
    3. # creator: Singo   
    4. # date: 2007-8-24   
    5. import urllib   
    6. import re   
    7. class SearchThief:   
    8. " " "the google thief " " "   
    9. global path,targetURL,demoPage   
    10. path = "pages\\ "   
    11. # targetURL = "http://www.google.cn/search?complete=1&hl=zh-CN&q= "   
    12. targetURL = "http://www.baidu.com/s?wd= "   
    13. demoPage = path+ "__demo__.html "   
    14. def __init__(self,key):   
    15. self.key = key   
    16. def getPage(self):   
    17. webStr = urllib.urlopen(targetURL+self.key) # get the page string form the url   
    18. webStr = self.getResultStr(webStr) # get the result part   
    19. webStr = self.reCreatePage(webStr) # re create a new page   
    20. self.setPageToFile(webStr)   
    21. def getResultStr(self,webStr):   
    22. webStrwebStrList = webStr.read().split( "\r\n ")   
    23. line = webStrList.index( "   ")+2 # get the line from "   " move 2 line   
    24. resultStr = webStrList[line]   
    25. return resultStr   
    26. def reCreatePage(self,resultStr):   
    27. demoStr = urllib.urlopen(demoPage).read() # get the demo page string   
    28. rereTitle = re.compile( "%title% ")   
    29. demoStr = reTitle.sub(self.key,demoStr) # re set the page title   
    30. rereResult = re.compile( "%result% ")   
    31. demoStr = reResult.sub(resultStr,demoStr) # re set the page result   
    32. return demoStr   
    33. def setPageToFile(self,webStr):   
    34. rereSetStr = re.compile( "\r ")   
    35. self.key = reSetStr.sub( " ",self.key) # replace the string "\r "   
    36. targetFile = file(path+self.key+ ".html ", "w ") # open the file for "w "rite   
    37. targetFile.write(webStr)   
    38. targetFile.close()   
    39. print "done "   
    40. inputKey = raw_input( "Enter you want to search --> ")   
    41. obj = SearchThief(inputKey)   
    42. obj.getPage()   
    43. [/code]  

    这样我们就可以得到一个自己定义的风格而含有百度搜索出来的结果的页面,这里只做了标题和结果及的替换,同样道理,我们还可以把“百度快照”替换掉,我们还可以重新生成翻页控件,这样一个搜索小偷就基本完成啦。

    用Python标准库向Google请求时,Google会返回一个不是我们希望得到的页面,上面的内容是提示无权访问,Google很聪明,这步已经被他们想到了,但百度没做这样的限制哦,于是成功截取百度的数据。同样道理,还可以尝试其他搜索引擎,比如yisou和soso。

    做个自己的页面风格,盗取baidu的搜索结果,打造自己的品牌而利用别人的数据,甚至去掉baidu的广告加上自己的广告,这种做法实在是太不厚道了,哈哈哈。该程序只为学习python标准库用,具体来说没什么意义。

    网站栏目:用Python标准库修改搜索引擎获取结果
    文章地址:http://www.mswzjz.cn/qtweb/news13/266063.html

    攀枝花网站建设、攀枝花网站运维推广公司-贝锐智能,是专注品牌与效果的网络营销公司;服务项目有等

    广告

    声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 贝锐智能

    贝锐智能技术为您推荐以下文章

    网站排名知识

    分类信息网站