51CTO首页
AI.x社区
博客
学堂
精品班
直播训练营
企业培训
鸿蒙开发者社区
WOT技术大会
AIGC创新中国行
公众号矩阵
移动端

这些常见的反爬虫手段,你能攻破多少?

开发 后端
这里给大家总结出了我们在爬取数据时常见的反爬虫手段。一起来看看吧。

在抓取对方网站、APP 应用的相关数据时,经常会遇到一系列的方法阻止爬虫。

网站APP们这么做的原因,一是为了保证服务的质量,降低服务器负载,二是为了保护数据不被获取。爬虫与反爬虫的斗争经久不衰,

这里给大家总结出了我们在爬取数据时常见的反爬虫手段。

1. User-Agent

网络请求中,User-Agent 是表明身份的一种方式,网站可以通过User-Agent来判断用户是使用什么浏览器访问。不同浏览器的User-Agent是不一样的

例如,我们在windows上面的Chrome浏览器,它的User-Agent是:

但是如果我们使用Python的Requests直接访问网站,除了网址不提供其他的信息,那么网站收到的User-Agent是空。

这个时候网站就知道我们不是使用浏览器访问的,于是它就可以拒绝我们的访问。

from fake_useragent import UserAgent
for i in range(1,11):
ua = UserAgent().random
print(f'第{i}次的ua是', ua)
'''
第1次的ua是 Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.62 Safari/537.36
第2次的ua是 Mozilla/5.0 (Windows NT 6.1; rv:21.0) Gecko/20130401 Firefox/21.0
第3次的ua是 Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_6; es-es) AppleWebKit/533.20.25 (KHTML, like Gecko) Version/5.0.4 Safari/533.20.27
第4次的ua是 Mozilla/5.0 (X11; CrOS i686 4319.74.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36
第5次的ua是 Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_6; fr-ch) AppleWebKit/533.19.4 (KHTML, like Gecko) Version/5.0.3 Safari/533.19.4
第6次的ua是 Mozilla/5.0 (X11; OpenBSD i386) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36
第7次的ua是 Mozilla/5.0 (X11; NetBSD) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.116 Safari/537.36
第8次的ua是 Mozilla/5.0 (X11; Linux i586; rv:31.0) Gecko/20100101 Firefox/31.0
第9次的ua是 Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; Zune 3.0)
第10次的ua是 Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.16 Safari/537.36
'''

2. Referer

HTTP Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,表明这个网页是从哪里跳过来的,是网页防盗链的一种方式

有时也被用于反爬虫。如果网站会检查 Referer,请保证你的 Referer 始终是正确的(跳转到此网页之前的网页 URL)。

3. Ajax

这个应该不算反爬?当网站使用 ajax 异步获取数据时,我们是无法直接从网页源代码中获取想要的数据的,这个时候要借助 Network 工具栏,分析 API 请求,然后使用 Python 模拟调用 API,直接从 API 中获取数据。(多数都是 POST 类型的请求,也有小部分 GET 的)

当然,也可以使用 Selenium 等自动化测试工具直接渲染网页,再从渲染后的网页源码中解析数据。

4. Cookie

在网站中,http的请求通常是无状态的(第一个和服务器连接并且登录之后,此时服务器知道是哪个用户,但是当第二次请求服务器时,服务器依然不知道当前请求的是哪个用户),cookie就是为了解决这个问题。

第一次登录服务器后,服务器会返回与刚刚用户相关的数据(也就是cookie)给浏览器,浏览器将cookie保存在本地,当这个用户第二次请求服务器时,就会把上次存储的cookie自动携带给服务器,服务器通过这个cookie就知道当前是哪个用户。

在一些爬虫中,我们在进入一个页面之前需要先登录,比如人人网,我们想要在人人网中浏览主页,就要先注册登录,然后才能浏览,那么在爬虫时,保持登录状态就需要在请求头中加入cookie。

cookies是指网站为了辨别用户身份,进行会话跟踪而储存在本地终端的数据,cookies一般再电脑中的文件里以文本形式储存。cookies其实是有键值对组成的,如下图所示:

5. 验证码  

验证码又分很多种,我们说一下比较常见的三种:字母验证码、拼图验证码、点选式验证码。

字母验证码,就是给你一张有若干字母或数字的图片,让你识别出其中内容,并在文本框中输入。比如这个:

这是最简单的验证码,一般编写深度学习模型训练,或直接使用打码平台即可解决。

拼图验证码,给定了一张图片和一个滑动组件。当你拖动滑动组件时,图片会出现缺口,拖动滑动组件,补全缺口即可过关。比类似于这种:

比较常见的做法是,通过图片之间的对比,计算拼图缺口的位置,然后使用特定的轨迹拖动滑块,完成验证。

你有两种方法提交验证,一是使用 Selenium 调用浏览器,二是直接破解 JS,使用 POST 模拟提交。

点选式的验证码,会给出一张小图片(有的是图片,有的不是,不同验证码平台不一样),上面顺序显示着几个汉字。再给出一张大图片,上面也有这几个汉字,但汉字的分布是随机的。要求你按照小图片中汉字出现的顺序,点击大图片中的汉字。类似于这种:

最常见的方法是借助打码平台计算相对坐标,然后使用 Selenium 等自动化工具按顺序点击。当然,自己训练模型也是可行的,但比较麻烦。

对于验证码,可以通过OCR来识别图片,Github上面有很多大神分享的代码可以用,可以去看看。

简单的OCR识别验证码:

from PIL import Image
import tesserocr
#tesserocr识别图片的2种方法
img = Image.open("code.jpg")
verify_code1 = tesserocr.image_to_text(img)
#print(verify_code1)
verify_code2 = tesserocr.file_to_text("code.jpg")

6. 代理 IP 池

如果你频繁使用同一个 IP 访问某个网站,可能会被网站认为是恶意攻击,进而 ban 掉你的 IP。这个时候,使用代理 IP 池就是一个很好的方案。

在一些网站服务中,除了对 user-agent 的身份信息进行检测。

也对客户端的 ip 地址做了限制。

如果是同一个客户端访问此网站服务器的次数过多就会将其识别为爬虫。

因而,限制其客户端 ip 的访问。这样的限制给我们的爬虫带来了麻烦,所以使用代理 ip 在爬虫中是非常有必要的。

这里我给大家提供一下两个网站供参考。

66代理:http://www.66ip.cn/6.html
快代理:https://www.kuaidaili.com/free/

7. 请求间隔

两次请求之间,最好设置一定间隔。理由如下:

   请求过于频繁,远超出人工频率,容易被识别出来,请不要给对方服务器造成太大压力

且间隔的时间不要定死,在一定范围内波动是个比较合适的选择。过于机械的间隔时长,也可能会让网站认为你是爬虫。

import time
import random
for i in range(1,11):
time = random.random()*5
print(f'第{i}次睡了:', time, 's')
'''
第1次睡了: 0.6327309035891232 s
第2次睡了: 0.037961811128097045 s
第3次睡了: 0.7443093721610153 s
第4次睡了: 0.564336149517787 s
第5次睡了: 0.39922345839757245 s
第6次睡了: 0.13724989845026703 s
第7次睡了: 0.7877693301824763 s
第8次睡了: 0.5641490602064826 s
第9次睡了: 0.05517343036931721 s
第10次睡了: 0.3992618299505627 s
'''

8. 字体反爬

还有一种特殊情况,你在浏览器页面上已经看到了你想要的数据,但是当你查看源码时,根本找不到相关数据或者数据和你看到的不一致。你怀疑这个数据是通过接口异步加载的,但你检查了请求,过程中并没有异步请求数据接口。怎么回事?

你可能遇到了字体反爬。即目标网站通过 CSS 样式、字体映射等方式,完成了对特定数据的隐藏。你无法直接从源码提取相关数据,但却不会影响网页的显示效果。那么,怎么解决呢?

两种方法,第一种,破解字体的映射关系,从源码中提取错误的数据,并通过特定的映射关系把它翻译成正确的数据。第二种就是偷懒的方法了,使用 Selenium 等自动化测试工具渲染页面,截取数据内容图片,并通过 OCR 程序识别图像内容。

9. 正则表达式

对于页面解析最强大的当然是正则表达式,这个对于不同网站不同的使用者都不一样,就不用过多的说明,附两个比较好的网址:

正则表达式入门:

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

正则表达式在线测试:

http://tool.oschina.net/regex/

其次就是解析库了,常用的有两个lxml和BeautifulSoup,对于这两个的使用介绍两个比较好的网站:

lxml:http://my.oschina.net/jhao104/blog/639448
BeautifulSoup:http://cuiqingcai.com/1319.html

对于这两个库,我的评价是,都是HTML/XML的处理库,Beautifulsoup纯python实现,效率低,但是功能实用,

比如能用通过结果搜索获得某个HTML节点的源码;lxml C语言编码,高效,支持Xpath。

10. pprint

这个是在pycharm中查看的来看效果吧

print()打印,不知道你感觉如何,我一脸懵逼。

import requests
url = 'https://www.douyu.com/gapi/rknc/directory/yzRec/1'
resp = requests.get(url).json()
print(resp)

pprint()打印,这种结构看起来如何呢?

from pprint import pprint
import requests
url = 'https://www.douyu.com/gapi/rknc/directory/yzRec/1'
resp = requests.get(url).json()
pprint(resp)

现在除了使用pprint之外,冰淇淋icecream也是很好的选择

责任编辑:庞桂玉 来源: Python技术
相关推荐
爬虫需谨慎,不知道爬虫爬虫套路!
面试的时候,因为双方爬虫理念或者反爬虫理念不同,也很可能互不认可,影响自己的求职之路。本来程序员就有“文人相轻”的倾向,何况理念真的大不同。

2018-01-29 09:28:44

头号黑客狱中放话:我能攻破奥巴马绝密手机
奥巴马总统级的“最高机密黑莓手机”是否真能“百毒不侵”?《华盛顿时报》称,目前仍在监狱服刑的全球最著名黑客凯文·米特尼克认为,无论奥巴马的手机如何加密,它仍然可以被攻破。白宫的保安专家恐怕防不胜防。米特尼克以15岁之龄成功闯入北美防空系统,之后又入侵美国电话和电脑系统,包括中情局、国防部、摩托罗拉等网络,多次进出监狱,被称为世界上...

2009-04-26 21:45:49

这些攻击手段知道吗
从从互联网发展开始,各种网络安全问题也就伴随而生。近些年来有很多网站遭到攻击,如新浪微博遭XSS攻击,以CSDN为代表的多个网站泄露用户密码和个人信息。

2020-11-18 07:52:08

这些问题,能回答多少
这些问题来着阿里巴巴DBA面试,你能回答多少呢?也许你能回答出来,距离DBA,你又进了一步。下面也请你来试试吧,问题后面会附上该题的一份答案,不一定完全正确,仅供参考。

2011-05-10 10:56:29

DBA 面试
这些网络故障处理手段都试过了吗
网络故障是最容易出现的,也是难以解决的问题,这个平时我们弱电行业网朋友问的比较多的问题,尤其是经常跟电脑及交换机打交道的朋友,网络故障难免会出现,那么本期我们整理了大部分网络故障排查思路与案例处理方法,应该说可以解决日常中大部分的网络问题,我们一起来了解下。

2018-09-02 10:43:02

网络 故障 处理手段
爬虫爬虫技术
互联网的快速发展离不开爬虫的贡献,百度爬虫、搜狗爬虫、360爬虫、UC爬虫...各式各样的爬虫背后同时也隐藏着一些阻碍互联网发展的爬虫...什么是爬虫?爬虫是如何爬取到数据的?不想让爬虫爬取我的网站,该怎么办?本文将对这些问题做一个深入浅出的介绍。

2022-11-24 10:24:32

爬虫需谨慎!那些不知道爬虫爬虫套路 学起来
反爬虫很好理解,有了爬虫我们自然要反爬虫。对于程序员来说,哪怕仅仅是出于“我就是要证明我技术比你好”的目的,也会去做。对于公司来说,意义更加重大,最少,也能降低服务器负载,光凭这一点,反爬虫就有充足的生存价值。

2017-06-30 13:23:02

一日一技:爬虫极致手段,几行代码直接炸了爬虫服务器
网站服务器可能会使用gzip压缩一些大资源,这些资源在网络上传输的时候,是压缩后的二进制格式。

2022-01-26 00:19:17

反爬虫 爬虫 服务器
爬虫VS爬虫蝴蝶效应
在互联网的世界中,蝴蝶效应的呈现则更为明显,身为互联网使用者,你的每一次点击,每一个打开,每一个保存与分享都不仅仅只是点击、打开、保存、分享,它们都将汇集成为数据,成为你互联网畅游的路径。

2016-10-13 15:51:50

爬虫爬虫技术简介
本文一方面从爬虫与反反爬的角度来说明如何高效的对网络上的公开数据进行爬取,另一方面也会介绍反爬虫的技术手段,为防止外部爬虫大批量的采集数据的过程对服务器造成超负载方面提供些许建议。

2022-09-14 23:06:45

Python爬虫常用库,这些都用过吗?
这些库是Python爬虫的有力工具,可以根据你的需求选择和组合使用它们。无论你是想进行简单的网页内容提取还是构建复杂的网络爬虫,这些库都能满足你的需求。

2023-11-22 07:42:01

这些开源安全工具,用过多少
保护家庭系统免受恶意软件攻击,保护企业网络远离黑客,还是隐藏身份以免被压迫性政府体制窃取,都可以使用开源工具它们可以取代价格不菲的闭源软件。看看下面这些开源工具,你用过多少

2014-04-09 09:12:08

被坑了吗?这些ERP实施常见误区
ERP软件是一套精细化管理系统,很容易暴露管理、运行、操作中的漏洞,ERP系统不亚于一座管理显微镜,不仅放大了管理问题,也放大了矛盾冲突,这就大大增加了ERP实施的困难程度。

2019-04-23 11:21:57

ERP系统 管理 信息化
容器云开发,这些必备知识了解多少
多年以来,容器已经凭借自身强大的特性进入主流市场,但CaaS供应商并没有丝毫松懈。他们以更灵活的方式满足着大多数开发团队的需求,成功从PaaS手中夺下不少市场份额。

2020-12-09 18:16:48

容器 云开发 CaaS
浅谈网络爬虫技术与爬虫防护
网络爬虫按照实现的技术和结构可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等。在实际的网络爬虫中,通常是这几类爬虫的组合体。

2022-09-20 07:02:20

网络 爬虫 反爬虫
这些被同事喷JS代码风格写过多少
现在写代码比以前好多了,代码的格式都有eslint、prettier、babel(写新版语法)这些来保证,然而,技术手段再高端都不能解决代码可读性(代码能否被未来的自己和同事看懂)的问题,因为这个问题只有人自己才能解决。

2019-02-12 15:00:32

Javascript 命令式编程 前端
没玩过全新版本Windows 10这些操作多少
不知不觉,Win10与我们相伴已经整整四个年头了,从最开始的组团抗拒到现在的默默接受,个中滋味相信谁心里都有个数。近日微软开始推送“Win10更新五月版”,那么Win10中到底都有哪些“骚”操作一起来看看吧。

2019-06-18 07:55:30

Windows Windows 10 操作系统
拒绝爬虫!教你搞定爬虫验证码
随着技术的发展,验证码的花样越来越多。验证码最初是几个数字组合的简单的图形验证码,后来加入了英文字母和混淆曲线。有的网站还可能看到中文字符的验证码,这使得识别越发困难。

2021-06-10 18:24:59

反爬虫 验证码 爬虫
这些好用却最不被看好Python库,知道多少
今天,小芯就将努力当一个“好伯乐”,简洁明了地为大家介绍那些不被看好的Python库,发掘出它们的无限潜能。

2020-02-17 15:49:11

Python 库 开发
这些很好用却不被看好Python库,知道多少
生活中,常常有一些人,明明很有能力,却不被身边人看好。是金子总能发光,这句话放在现实生活中,其实并不完全适用,人口众多,不乏有才之人,想要成功就需要一个一鸣惊人的机会。

2019-12-02 09:04:12

Python GitHub 机器学习

深圳SEO优化公司海北企业网站建设多少钱霍邱网站搜索优化推荐阿里网站seo优化价格玉树外贸网站制作价格阿坝网站优化价格通辽关键词按天收费价格贵阳网站制作设计报价广元SEO按天计费铜川seo优化福永企业网站制作哪家好海东模板网站建设海西SEO按天扣费报价仙桃设计网站多少钱佛山网站优化报价怒江企业网站制作价格惠州外贸网站建设价格柳州关键词按天收费价格宜昌百姓网标王推广哪家好信阳外贸网站制作白银网站定制哪家好莱芜网站排名优化报价绵阳外贸网站制作推荐潍坊网站改版哪家好宜宾网站制作设计报价南山高端网站设计哪家好平凉百度竞价包年推广永州seo排名哪家好襄阳网站开发价格海北SEO按天扣费通化模板网站建设公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化