IIS屏蔽搜索引擎爬虫

事情的起源,还是来自于站点的日志系统,发现了很多莫名的异常报错,领导要求排查减少日志上的错误数量。检查发现请求的地址是业务地址,但是没有带用户授权标识上来, 一般正常的用户不会发生这种情况呀。 再细致一检查,这类异常请求的ua 都带有 bot、spider 诸如 baidu.com/search/spider ,www.similartech.com/smtbot,http://www.bing.com/bingbot.htm  等等   那么说明这些都为搜索引擎的机器人爬虫

这是回想我们设置在站点下放的防采集文件,robots文件,里面已经有配置很多禁止采集的设置了,使用站长工具生成的robots文件格式也很标准。哎仔细一查,很多搜索引擎都不按禁止采集规则走都直接进行请求,机器人是不会带我们客户的登陆标识的,直接请求我们业务地址导致的业务执行错误。

综上,最好的解决方案  我们按照客户端请求的ua User-Agent 进行拦截, 凡是ua中带有bot  spider字样出现的,先都统统屏蔽了。 虽然有可能误杀某个浏览器的ua就是有带bot, 但现在是基于系统中的日志来看是没有的

这里我们的服务器是iis  要用到一个iis重写功能 iisrewrite  

 

添加规则,针其中针对符合条件规则的请求进行阻止

 

 

这里我们选择请求用户代理标头  也就是用户请求的ua User-Agent 使用正则表达式进行匹配

 

 

 

这里放出福利,正则匹配规则:

(?:[\s\S]*?)(?:[Bb][Oo][Tt]|[Ss][Pp][Ii][Dd][Ee][Rr])

 

点击确定,即可完成   这是我们用postman对网站设置进行一个检验:当Ua是正常浏览器的时候  返回的是正确的信息

 

 

当ua中含有搜索引擎相关的标头出现的时候, 请求即被拦截 

 

_bujinton
关注 关注
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
php IIS日志分析搜索引擎爬虫记录程序第1/2页
01-20
使用注意:   修改iis.php文件中iis日志的绝对路径   例如:$folder=”c:/windows/system32/logfiles/站点日志目录/”; //后面记得一定要带斜杠(/)。   ( 用虚拟空间的不懂查看你的站点绝对路径?上传个探针查看!   直接查看法:http://站点域名/iis.php   本地查看法:把日志下载到本地 http://127.0.0.1/iis.php )   注意:   //站点日志目录,注意该目录必须要有站点用户读取权限!   //如果把日志下载到本地请修改143行的网址为您网站的网址,此操作不是必要操作,不影响分析结果。   //修改文件
服务器IIS6/IIS7、Nginx、Apache屏蔽垃圾爬虫UA禁止垃圾爬虫屏蔽指定UA
ζυииу·。的专栏
11-14 1910
有的时候打开后台会发现网站后台有各种莫名其妙的蜘蛛UA,而不是搜索引擎来过的,那么可能是被别人给爬取了,可以用下面方法来屏蔽不明的蜘蛛UA,可根据网站实际情况来修改要屏蔽的蜘蛛UA对付这种垃圾的蜘蛛,最好的方法就是按照访问规则,查看对应的UA,按照UA规则,进行禁止访问,那么我们应该怎么做呢?
jviisualvm监控远程主机java程序实战与问题排查
weixin_30287169的博客
01-27 147
1.远程主机运行jstatd 首先新建文件 jstatd.all.policy ,内容如下 grant codebase "file:${java.home}/../lib/tools.jar" { permission java.security.AllPermission; }; 为了问题排查,我的版本稍微改了一下 grant codebase "file:/home/saku...
IIS启用兼容模式设置(win2k3—Win7)
weixin_30457465的博客
01-07 119
点击添加按钮(上图),弹出下面的对话框(下图)。在自定义HTTP头名处输入: X-UA-compatible 在自定义HTTP头值处输入: IE=EmulateIE7 (输入时注意不要留下空格)输入完,点击确定按钮 Win7 IIS兼容设置: 转载于:https://www.cnblogs.com/dwfbenben/p/3508624.html...
IIS6/7 配置问题
weixin_30254435的博客
01-26 66
IIS7 / IIS6 HttpMoudles 在web.config 中不同的配置 原创2011年04月25日 08:44:00 标签: iis/ server 4357 昨天把我们写的程序布署到server2008 IIS7 中 所有httpModules全部失效。这让我很苦恼啊,找了一上午也没找到问题。没办法谁让咱们没有考虑过IIS7...
屏蔽机器人爬虫爬网站
心灵净土
08-14 1871
最近,在检测iis日志的时候,发下有爬虫爬我的网站。比较恼怒,怎么能爬呢,秘密啊。 马上在网站的根目录放个robots.txt文件,文件内容如下:User-agent: * Disallow: /呵呵,这些任何守法的爬虫都不爬了。
关于IIS防止盗链的小知识
weixin_44400506的博客
01-08 192
“盗链”的定义是:此内容不在自己服务器上,而通过技术手段,绕过别人放广告有利益的最终页,直接在自己的有广告有利益的页面上向最终用户提供此内容。常常是一些名不见经传的小网站来盗取一些有实力的大网站的地址(比如一些音乐、图片、软件的下载地址)然后放置在自己的网站中,通过这种方法盗取大网站的空间和流量。 为什么会产生盗链 一般浏览有一个重要的现象就是一个完整的页面并不是一次全部传送到客户端的。如果请求的...
[原创]II7/IIS8屏蔽YisouSpider蜘蛛
weixin_30621919的博客
12-12 407
来源:http://www.0531s.com/content-46-1927014-1.html YisouSpider蜘蛛抓取网页能够导致CPU暴涨,影响其他蜘蛛和用户的访问,多次实验后,发现IIS自带的URL重写可以起到作用。首先选择需要进行屏蔽的网站,然后打开URL重写。打开入站规则打开添加规则,选择请求阻止点击确定,在新弹出的界面,访问阻止依据中选择用户代理表头在模式(用户代...
IIS6.0出错脚本引擎异常处理方法
09-30
个错误目前已知的原因有2方面!1.VBScript和MDAC本身错误造成解析不稳定!2.ACCESS引发的错误!下面与大家分享下具体的处理方法
IIS默认的错误页不友好解决方法
01-10
而如果错误页直接跳转到首页又对搜索引擎很不友好,搞不好首页还会被封掉。所以根据情况,有两个方法解决这个问题:  1、如果是博客等内容型的网站,可以返回一个带有404错误的搜索框让访客搜索,若是电子商务型...
发现世界搜索引擎源码GBK版
04-04
发现世界搜索引擎是一个搜索引擎后台管理系统,它包括...发现世界搜索引擎 2016-04-01更新日志 1.根据用户提出修正了爬虫检测 2.修正大数据测试搜索出现缓慢 3.对特殊符号搜索进行优化 4.都快照进行优化 5.其他细节优化
IIS6 的配置服务器判断ua, 302跳转方法:
A11085013的专栏
12-08 4216
2016年4月14日18:54:34 IIS6 的配置服务器判断ua, 302跳转方法: 一、修改文件  httpd.conf,位置在此网站/others/目录,下面【有的服务器上的位置可能不一样】。 修改的代码是: # 3600 = 1 hour  RepeatLimit 32  # Protect httpd.ini and httpd.parse.erro
IIS兼容模式设置
weixin_33834910的博客
01-22 457
X-UA-CompatibleIE=EmulateIE7来自为知笔记(Wiz)
IIS动态IP限制抵御CC攻击和网络爬虫IIS 8 IIS 7 Dynamic IP Address Restrictions
小刚刚技术博客
08-05 1229
IIS8新增了一个动态IP限制功能,可以限制同一IP的连接数和访问频率。IIS7则可以安装官方模块Dynamic IP Restrictions实现相同功能。 IIS8启用方法 默认情况下,IIS 8.0是没有安装“IP和域限制”模块的,我们需要到“服务器管理器”中单独安装下。 在IIS8点击相应站点,找到IP地址和域限制,双击进入。 在右边栏点击“编辑动态限制设置”,会弹出相应设置对话框。 设置同一IP连接数和请求频率,可以根据网站具体情况调整相关参数。
默认IE浏览器版本
weixin_30377461的博客
08-01 89
默认使用IE8打开页面 IIS设置HTTP响应标头: X-UA-Compatible IE=EmulateIE8 页面设置: <meta http-equiv=“X-UA-Compatible” content=“IE=8″> 或 <meta http-equiv="X-UA-Compatible" content="IE=EmulateIE8" /&g...
infrared-remote-candroid studiodemo
最新发布
05-05
android studio下载
【新质生产力】新质生产力赋能智能制造数字化解决方案.pptx
05-05
【新质生产力】新质生产力赋能智能制造数字化解决方案.pptx
基于matlab实现的用于应用布格重力异常数据反演地下异常密度体.rar
05-05
基于matlab实现的用于应用布格重力异常数据反演地下异常密度体.rar
IIS windows
09-11
IIS是指Internet Information Services,是微软的一款用于托管和管理Web应用程序的服务器软件。根据引用,不同版本的Windows操作系统对应着不同版本的IIS。以下是一些常见的版本对应关系: - Windows NT 3.51:IIS 1.0 - Windows NT 4.0:IIS 2.0、IIS 3.0、IIS 4.0 - Windows 2000:IIS 5.0 - Windows XP Professional:IIS 5.1、IIS 6.0 - Windows Vista:IIS 7.0 - Windows 7:IIS 7.5 - Windows 8:IIS 8.0 - Windows 8.1:IIS 8.5 - Windows 10 Version 1607:IIS 10.0 Version 1607 - Windows 10 Version 1709:IIS 10.0 Version 1709 - Windows 10 Version 1809:IIS 10.0 Version 1809 - Windows Server 2003:IIS 6.0 - Windows Server 2008:IIS 7.0 - Windows Server 2008 R2:IIS 7.5 - Windows Server 2012:IIS 8.0 - Windows Server 2012 R2:IIS 8.5 - Windows Server 2016:IIS 10.0 - Windows Server 2019:IIS 10.0 如果您想在Windows上启用IIS,您可以按照以下步骤进行操作。根据引用和引用,您需要打开Windows功能窗口,并找到Internet信息服务(IIS)选项。然后选择该选项以启用IIS功能。如果您不再需要IIS,您可以再次打开Windows功能窗口并取消选中IIS选项来禁用它。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 淘宝详情接口(稳定版本) 4870
  • swagger 访问nginx 问题解决 4220
  • IIS屏蔽搜索引擎爬虫 1380
  • 淘宝全店商品搜索 953
  • IIS7配置Gzip压缩 329

分类专栏

  • 笔记

最新评论

  • wireshark 抓取 https

    CSDN-Ada助手: 非常感谢CSDN博主的分享,这篇博客介绍了wireshark抓取https的方法,对网络安全有很大的帮助。我觉得接下来可以写一篇关于HTTPS的深度解析,包括HTTPS的原理、SSL/TLS协议、证书认证等方面的内容。这样的技术文章对其他用户的学习和实践都有很大的帮助。相信会有更多读者期待您的下一篇博客。加油! 为了方便博主创作,提高生产力,CSDN上线了AI写作助手功能,就在创作编辑器右侧哦~(https://mp.csdn.net/edit?utm_source=blog_comment_recall )诚邀您来加入测评,到此(https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall)发布测评文章即可获得「话题勋章」,同时还有机会拿定制奖牌。

  • 淘宝详情接口(稳定版本)

    weixin_39803622: 怎么联系你交流一下

  • 淘宝详情接口(稳定版本)

    weixin_42146002: 怎么联系你

  • 监控SQL Server正在执行的SQL语句和死锁情况

    Nappyboy: 写的很详细,wx_Haloom 同学现在在哪里工作呀?

最新文章

  • wireshark 抓取 https
  • swagger 访问nginx 问题解决
  • 监控SQL Server正在执行的SQL语句和死锁情况
2022年2篇
2021年5篇
2020年1篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司观澜关键词按天扣费多少钱宁波网站优化软件推荐白城优秀网站设计推荐济源建设网站多少钱潍坊优化推荐日照网页制作价格横岗网站搜索优化推荐无锡网站推广系统报价秦皇岛建设网站哪家好昌吉优化多少钱同乐网站建设梅州建站哪家好海口阿里店铺运营推荐泸州网站推广方案价格醴陵百搜标王多少钱榆林网站优化按天扣费德阳网络营销多少钱黄山至尊标王迁安网站优化按天扣费价格曲靖网站搜索优化价格渭南seo网站优化报价东营优化推荐保山网站推广系统公司观澜百度标王无锡建设网站多少钱茂名seo网站优化公司淮安企业网站制作报价济宁网站推广方案推荐福永阿里店铺托管哪家好通辽百度竞价包年推广报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化