各位小伙伴,大家好,这次咱们来说一下关于爬虫方向的一个知识,Python如何执行js,快来看看吧!!!
目前创新互联已为近千家的企业提供了网站建设、域名、网页空间、网站托管、企业网站设计、泾川网站维护等服务,公司将坚持客户导向、应用为本的策略,正道将秉承"和谐、参与、激情"的文化,与客户和合作伙伴齐心协力一起成长,共同发展。
都说术业有专攻,每个语言也都有自己的长处和短处。在爬虫方向,Python绝对是扛把子,近几年随着AI的火爆,需要各种各样的数据,所以,爬虫需求也跟着水涨船高起来。
我们做爬虫的当然是爬的爽,但是估计人家后台在骂街,毕竟谁都不希望自己的数据被弄走,所以后台反爬技术也在快速提升,一攻一防就这么在拉锯着。
现在为了防止反爬,前端使用的反爬技术比较多的是js代码混淆。
正常代码
我们现在看一段js代码,代码逻辑很简单,就是拼接时间返回。
- function formatDate(now) {
- var now = new Date(1230999938);
- var year=now.getFullYear();
- var month=now.getMonth()+1;
- var date=now.getDate();
- var hour=now.getHours();
- var minute=now.getMinutes();
- var second=now.getSeconds();
- return year+"-"+month+"-"+date+" "+hour+":"+minute+":"+second;
- }
运行一下这段代码,如下图所示。
我随便找了个在线的js代码混淆网站。
js代码
- function formatDate(mz1){var KkkGDiH2=new window["\x44\x61\x74\x65"](1230999938);var tsk3=KkkGDiH2['\x67\x65\x74\x46\x75\x6c\x6c\x59\x65\x61\x72']();var YMreyP4=KkkGDiH2['\x67\x65\x74\x4d\x6f\x6e\x74\x68']()+1;var Ozo5=KkkGDiH2['\x67\x65\x74\x44\x61\x74\x65']();var QMYEc$eD6=KkkGDiH2['\x67\x65\x74\x48\x6f\x75\x72\x73']();var JfXVV_Akq7=KkkGDiH2['\x67\x65\x74\x4d\x69\x6e\x75\x74\x65\x73']();var $mP8=KkkGDiH2['\x67\x65\x74\x53\x65\x63\x6f\x6e\x64\x73']();return tsk3+"\x2d"+YMreyP4+"\x2d"+Ozo5+" "+QMYEc$eD6+"\x3a"+JfXVV_Akq7+"\x3a"+$mP8
上面这个真的不是我瞎写的,混淆之后就是这样子的,不信看图片。
可能我们会有个疑问,js代码都成这玩意了,还能执行吗? 答案是肯定的。即使js代码非常乱,但还是可以执行的,结果跟上面的是一样的。
这就造成了一个问题,我们在做爬虫时,如果需要,多多少少可能都要研究一下js代码,然后进行js解密一下,但是,但是,要是代码都混淆成了这了,还怎么解?
一点逻辑都看不通了,基本上不可用Python按照js逻辑重写出来了...
很巧,小编也是卡在这里...后来我就想,要是Python能执行js代码就好了,不用管函数里面的逻辑了,只拿函数返回值就好了。
可能是吧,不止我一个人遇到了这种情况,所以大佬们就开发出来这种工具包,用于执行js代码。
在安装之前,需要有node环境,这里就不举栗子了,下一步下一步就好了。
- pip3 install PyExecJS
Execjs用法超级简单的,几行代码。
注:由于上述js代码会生成window对象,并不能直接执行成功,需要额外的其他辅助,这里简单的举一下其他例子。
正常js代码
- function add(x, y) {
- return x + y;
- }
Python执行js代码
- import execjs
- ctx = execjs.compile("""
- function add(x, y) {
- return x + y;
- }
- """)
- print(ctx.call("add", 1, 2))
执行结果如下图所示:
- function add(bi1,Pl$2){return bi1+Pl$2}
Python执行混淆js代码
- import execjs
- ctx = execjs.compile("""
- function add(bi1,Pl$2){return bi1+Pl$2}
- """)
- print(ctx.call("add", 1, 2))
执行结果如下图所示:
可以看到,即使再混淆,只要执行的是js代码,都是没啥问题的。
上述拼接时间返回的js混淆代码也是可以执行的,但是它多了一个window对象,需要node安装jsdom才行,由于网络设置有问题,实在是下载不了举例子,实在是抱歉。
或者使用selenium打开游览器执行再返回也行,当然,速度更慢。
反爬和爬虫一直都是一攻一防,以后可能这种情况会更严重,但是在Python庞大的生态中总能找到不错的方案。人生苦短,Python当歌。
本文题目:手把手教你如何使用Python执行js代码
URL链接:http://www.mswzjz.cn/qtweb/news7/309607.html
攀枝花网站建设、攀枝花网站运维推广公司-贝锐智能,是专注品牌与效果的网络营销公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 贝锐智能