IIS屏蔽搜索引擎爬虫

_bujinton

于 2020-11-18 11:50:55 发布

阅读量1.3k

收藏 4

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/qq_26709523/article/details/109769806

版权

事情的起源，还是来自于站点的日志系统，发现了很多莫名的异常报错，领导要求排查减少日志上的错误数量。检查发现请求的地址是业务地址，但是没有带用户授权标识上来，一般正常的用户不会发生这种情况呀。再细致一检查，这类异常请求的ua 都带有 bot、spider 诸如 baidu.com/search/spider ，www.similartech.com/smtbot，http://www.bing.com/bingbot.htm 等等那么说明这些都为搜索引擎的机器人爬虫

这是回想我们设置在站点下放的防采集文件，robots文件，里面已经有配置很多禁止采集的设置了，使用站长工具生成的robots文件格式也很标准。哎仔细一查，很多搜索引擎都不按禁止采集规则走都直接进行请求，机器人是不会带我们客户的登陆标识的，直接请求我们业务地址导致的业务执行错误。

综上，最好的解决方案我们按照客户端请求的ua User-Agent 进行拦截，凡是ua中带有bot spider字样出现的，先都统统屏蔽了。 虽然有可能误杀某个浏览器的ua就是有带bot，但现在是基于系统中的日志来看是没有的

这里我们的服务器是iis 要用到一个iis重写功能 iisrewrite

添加规则，针其中针对符合条件规则的请求进行阻止

这里我们选择请求用户代理标头也就是用户请求的ua User-Agent 使用正则表达式进行匹配

这里放出福利，正则匹配规则：

(?:[\s\S]*?)(?:[Bb][Oo][Tt]|[Ss][Pp][Ii][Dd][Ee][Rr])

点击确定，即可完成这是我们用postman对网站设置进行一个检验：当Ua是正常浏览器的时候返回的是正确的信息

当ua中含有搜索引擎相关的标头出现的时候，请求即被拦截

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
IIS屏蔽搜索引擎爬虫

事情的起源，还是来自于站点的日志系统，发现了很多莫名的异常报错，领导要求排查减少日志上的错误数量。检查发现请求的地址是业务地址，但是没有带用户授权标识上来，一般正常的用户不会发生这种情况呀。再细致一检查，这类异常请求的ua 都带有 bot、spider 诸如baidu.com/search/spider ，www.similartech.com/smtbot，http://www.bing.com/bingbot.htm 等等那么说明这些都为搜索引擎的机器人爬虫这是回想我们设置在站点下放的...
复制链接

扫一扫

_bujinton CSDN认证博客专家 CSDN认证企业博客

6: 原创

105万+: 周排名

208万+: 总排名

2万+: 访问

: 等级

94: 积分

37: 粉丝

3: 获赞

5: 评论

14: 收藏

写文章

热门文章

淘宝详情接口（稳定版本） 4870
swagger 访问nginx 问题解决 4220
IIS屏蔽搜索引擎爬虫 1380
淘宝全店商品搜索 953
IIS7配置Gzip压缩 329

分类专栏

笔记

最新评论

wireshark 抓取 https
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客介绍了wireshark抓取https的方法，对网络安全有很大的帮助。我觉得接下来可以写一篇关于HTTPS的深度解析，包括HTTPS的原理、SSL/TLS协议、证书认证等方面的内容。这样的技术文章对其他用户的学习和实践都有很大的帮助。相信会有更多读者期待您的下一篇博客。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
淘宝详情接口（稳定版本）
weixin_39803622: 怎么联系你交流一下
淘宝详情接口（稳定版本）
weixin_42146002: 怎么联系你
监控SQL Server正在执行的SQL语句和死锁情况
Nappyboy: 写的很详细，wx_Haloom 同学现在在哪里工作呀？

最新文章

wireshark 抓取 https
swagger 访问nginx 问题解决
监控SQL Server正在执行的SQL语句和死锁情况

目录

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

深圳SEO优化公司观澜关键词按天扣费多少钱宁波网站优化软件推荐白城优秀网站设计推荐济源建设网站多少钱潍坊优化推荐日照网页制作价格横岗网站搜索优化推荐无锡网站推广系统报价秦皇岛建设网站哪家好昌吉优化多少钱同乐网站建设梅州建站哪家好海口阿里店铺运营推荐泸州网站推广方案价格醴陵百搜标王多少钱榆林网站优化按天扣费德阳网络营销多少钱黄山至尊标王迁安网站优化按天扣费价格曲靖网站搜索优化价格渭南seo网站优化报价东营优化推荐保山网站推广系统公司观澜百度标王无锡建设网站多少钱茂名seo网站优化公司淮安企业网站制作报价济宁网站推广方案推荐福永阿里店铺托管哪家好通辽百度竞价包年推广报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化