爬虫返回一堆JS怎么办?

点击上方蓝色小字,关注“涛哥聊Python

重磅干货,第一时间送达

来源:学习python的正确姿势

今天给你分享一下篇反反爬的实例。

一个思路,也许给你带来些许启发..

也许你会遇到这样的情况:

打开某个网站,可以看到页面是正常显示的,但是当你通过 Python 去请求的时候,你会得到一堆无厘头的 JS..

像这样的操作,应该怎么玩呢?

接下来由【小帅b的朋友:lin】给大家演示一下。

当你使用 requests 请求某网站的时候,得到的是这样的:

这时候就要看看是不是用啥了,是不是协议头问题呢?

通过不断的测试 最终确定是 cookie 中 acwsc_v2 的问题。

那不就好办了,我们使用一个hook:

这段 hook 有俩种使用方式:一是油猴、二是fd插件。看各位的喜好啦!

打上 hook,打开 F12 调试器,刷新网页,先是遇到了我们熟悉的无限 debugger:

常规的做法是在 debugger 一行左边右键选择 never pause here:

接着 F8 放行断点就行了

如果没有断下来,先清除cookie在刷新网页:

很快就能看到 cookie 被 hook 下来了。

接着在 call stack 往上找:

到 reload 这里看到 x 是我们需要的值:

接着可以观察到原来是在 settimeout 里面做了操作:

所以我们所需要分析的逻辑就变为了:

var _0x23a392 = arg1[_0x55f3('0x19', '\x50\x67\x35\x34')]();

arg2 = _0x23a392[_0x55f3('0x1b', '\x7a\x35\x4f\x26')](_0x5e8b26);

不懂的人会看不懂这种混淆代码,其实这是一种 ob 混淆,可以看到很多函数名变量名基本被混淆了的。

但是不用慌 我们可以通过 AST 的方法或者硬刚的方法来解决:

可以看到只需要把解密函数的代码圈起来就能拿到解密后的值,我们就可以按照这个来分析改写了。

这里使用了arg1:

arg1就在页面上层能找到:

然后整个圈起来:

扣和改就行了,工作量不会很大:

还原改写后运行试试看,会看到报一个错,缺少提示的变量,那我们就去 js 里面找这个值:

找到这一段值补上即可,通过几次刷新尝试,发现这段值是固定的,所以可以写死。

补完后运行:

发现和网页计算的一模一样,那我们这个值就正确啦。

最后我们用python实现:

完美!撒花

【完】

今天给大家整理了关于 Python 资源最全的中文合集!

这个开源是由 vinta 发起维护的 Python 资源列表,内容包括:

1 Web 框架网络爬虫

2 网络内容提取

3 模板引擎

4 数据库

5 数据可视化

6 图片处理

7 文本处理

8 自然语言处理

9 机器学习

10 日志

11 代码分析

最难得可贵的是该资源,还有人专门持续更新。

项目的详细内容如下:

(可上下滑动查看全部资源)

资料获取方法

1. 扫描下方二维码

2. 后台回复关键词:开源

????长按上方二维码 2 秒
回复「开源」即可获取资料
Sitin涛哥
关注 关注
  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
python爬虫的一个常见简单js反爬详解
09-19
主要介绍了python爬虫的一个常见简单js反爬详解我们在写爬虫是遇到最多的应该就是js反爬了,今天分享一个比较常见的js反爬,我把js反爬分为参数由js加密生成和js生成cookie等来操作浏览器这两部分,需要的朋友可以参考下
python爬虫反虫之setcookie
小Y的博客
06-26 8861
反爬表现 在使用python或rust进行爬虫的时候的有时会遇到请求返回一段含有只含有js代码的html页面如图: 分析及优化文件 从上面内容可大体看出这段js的作用是设置cookie,实际是这样的,这就是常见的setCookie反爬。其中arg1是用来解密的一个参数,每次返回的值都不一样。_0x4818(其他类似的都是变量) 一个变量,只不过是进行了混淆,\x63\x73\x4b这种字符是转义...
python 爬虫 动态网页爬虫js加密破解思路
henda233的博客
05-26 874
对于这种js加密+动态网站+反调试的网站,这也算是一个行之有效的思路。
中文 Python 开源资料合集!这应该是最全的了!
小詹学python的博客
03-12 235
学习编程的人都知道全球有个最大的开源社区 Github,在这社区上有很多开源免费的资料。今天我就给整理了关于 Python 资源最全的中文合集!这个开源...
实战解决Python requests爬虫返回全是JS②403错误的问题
KageYamaa的博客
11-16 7075
通过分析网页的接口调用情况解决python requests爬虫的403错误问题。
爬虫开发--常见问题解决方法
nikeylee的博客
10-27 5514
爬虫开发06--
python 爬虫第五天(反爬措施以及对应措施,动态html页面的处理方法)
weixin_45410462的博客
11-02 375
第五天
JavaScript反爬虫技巧详细攻略
随便写写
10-13 2124
在当今的web开发中,JavaScript已经成为了一个不可或缺的部分。然而,这也引发了一个问题,那就是如何防止爬虫程序(如Google Bot或其他搜索引擎的爬虫)从网站中抓取数据。以下是一些关于如何防止JavaScript被爬虫抓取的技巧和策略,以及它们的一些工作原理。
测试一个自己编写的js爬虫
01-12
测试一个自己编写的js爬虫
JS爬虫和逆向JS爬虫和逆向
06-17
学习JavaScript爬虫和逆向工程需要结合实际案例进行,通过阅读提供的压缩包文件中的"Day14:JavaScript基本语法03"、"Day21:JS逆向实战案例解析二"等资料,可以深入理解这些概念,并逐步提升技能。这些教程可能涵盖...
爬虫实战之js爬虫资料文档
11-01
在这个"爬虫实战之js爬虫资料文档"中,我们将探讨JavaScript在爬虫技术中的应用,以及如何利用JavaScript进行网页数据的抓取。JavaScript爬虫是由于许多网站依赖JavaScript来动态加载内容而变得尤为重要,因为传统的...
Python爬虫JS逆向进阶课程
06-08
这门课程是Python爬虫JS逆向进阶课程,将教授学员如何使用Python爬虫技术和JS逆向技术获取网站数据。学习者将学习如何分析网站的JS代码,破解反爬虫机制,以及如何使用Selenium和PhantomJS等工具进行模拟登录和数据...
python爬虫爬取js生成的页面_爬虫之抓取js生成的数据
weixin_39906499的博客
11-30 1895
有很多页面,当我们用request发送请求,返回的内容里面并没有页面上显示的数据,主要有两种情况,一是通过ajax异步发送请求,得到响应把数据放入页面中,对于这种情况,我们可以查看关于ajax的请求,然后分析ajax请求路径和响应,拿到想要的数据;另外一种就是js动态加载得到的数据,然后放入页面中。这两种情况下,对于用户利用浏览器访问时,都不会发现有什么异常,会迅速的得到完整页面。其实我们之前学过...
Python 爬虫获取 JS 动态内容—,大厂Python研发岗面试复盘
m0_56169789的博客
03-22 1637
这是我花了几天的时间去把Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。基本上主流的和经典的都有,这里我就不放图了,版权问题,个人看看是没有问题的。
爬虫配套工具类,去除html,css,js标签
douxubao的博客
03-29 356
package util; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * html标签处理工具类 */ public class HTMLUtil { public static String delHTMLTag(String htmlStr){ String regE...
python爬取问卷星内容_Python Selenium 问卷星自动填写
weixin_39883256的博客
02-21 898
从问卷星网站找的一个模板编写思路大致是这样xpath定位网页元素driver.find_element_by_xpath对元素进行操作,有点击click和填入send_keys最后点击提交问卷//*[@id="submit_button]结束若想要多份问卷写个循环套外面即可注意事项要下载相应版本的Chormedriver放在python文件夹里做驱动填写问卷时,定位元素只能定位到可视化区域,看不...
python 爬虫(八)常见的反爬措施以及应对措施(爬虫必备)+ 动态Html页面的处理方法 + selenium+PhantomJS的介绍及安装
langdei的博客
11-02 2975
python中文件操作的小知识: 如何打印一个文件同时输出行号 方法:枚举enumerate fp = open('test.txt','r',encoding='utf-8') print(fp) #如何输出行号 for i,c in enumerate(fp,1): ## 接收两个参数,第一个为遍历内容,第二个为起始行号,默认为0 print(i,c) 文章目录一、常见的反爬...
[Python数据可视化]Plotly Express: 地图数据可视化的魅力
最新发布
William数据分析的博客
09-17 893
数据分析和可视化的世界中,地图数据可视化是一个强大而直观的工具,它可以帮助我们更好地理解和解释地理数据。Python 的 Plotly Express 库提供了一个简单而强大的方式来创建各种地图。本文将通过一个简单的示例,展示如何使用 Plotly Express 来创建一个交互式的地图,并探讨其在地图数据可视化方面的应用。
何为爬虫爬虫的功能?爬虫利弊?
05-23
爬虫是一种自动获取互联网上特定信息的程序。它通过模拟浏览器访问网站页面,从中提取出所需的数据,并将收集到的数据保存下来,以便分析、处理和使用。 爬虫的主要功能是获取互联网上的信息,包括但不限于网页内容...
写文章

热门文章

  • 4个方法,教你1分钟查询你的手机注册了多少软件和网站 83372
  • B 站疯传,堪称最强,10 大免费的白嫖网站 32315
  • 这几个奇奇怪怪的网站,看完震到腰疼! 29786
  • 熬夜给女朋友搭建了一个网站~ 24741
  • Python 中的字符串分割函数 split() 详解 24345

分类专栏

  • Python 1431篇
  • 资源 14篇
  • linux 1篇
  • 语言 1篇
  • 随笔
  • 杂记 3篇
  • 工具 4篇
  • git

最新评论

  • pygraphviz,一个好用的 Python 库!

    qq_33457053: 为什么我pip安装失败呢 ERROR: Failed to build installable wheels for some pyproject.toml based projects (pygraphviz)

  • aiokafka,一个非常实用的 Python 库!

    sinat_35521718: 查阅过aiokafka官方文档,AIOKafkaProducer提供的实现“发送消息”功能的函数是:send、send_and_wait、send_batch,AIOKafkaConsumer提供的实现“消费消息”功能的函数是:get_many、get_one

  • aiokafka,一个非常实用的 Python 库!

    sinat_35521718: 不知道文章示例中的代码是怎么来的,用到的函数并不存在

  • aiokafka,一个非常实用的 Python 库!

    sinat_35521718: 查阅了官方文档,发现AIOKafkaProducer并没有提供send_message、send_messages函数,AIOKafkaConsumer也并没有提供batches函数

  • boto3,一个不可思议的 Python 库!

    Key_June627: 收费吗这个

最新文章

  • Python函数编程:参数传递与返回值
  • 掌握Python控制流:if语句的高级用法
  • Python编程技巧:使用vars轻松获取对象属性
2024
09月 28篇
08月 64篇
07月 76篇
06月 84篇
05月 93篇
04月 100篇
03月 143篇
02月 104篇
01月 217篇
2023年743篇
2022年7篇
2021年323篇
2020年906篇
2019年630篇
2018年49篇
2017年17篇
2016年1篇
2015年1篇
2012年3篇

目录

目录

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司网站优化排名提升通州网站优化收费甘肃网站优化注意事项宁波网站优化快速排名奉贤区360网站优化费用巩义网站优化推广哪里不错潮州网站搜索优化东宝区网站关键词排名优化厂家甘南网站优化推广找哪个公司福建省给网站优化哪家专业呈贡网站优化报价网站关键词优化值得信赖商丘百度网站优化推荐安康网站关键词优化排名安义网站优化平台网站优化到底是啥意思十堰本地网站优化多少钱高新区网站优化服务郑东新区网站优化平台建材行业网站优化营销泸州网站优化服务园区网站优化多少钱杭州专业网站优化排名多少钱优化网站点击日照正规网站优化咨询电话寿光网站快速优化秋长优化网站公司渭南网站搜索优化长安网站优化专业价格网站可以优化多少词歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化