爱站内页反链 爱站首页反链 神马是否收录 360网站安全检测 搜狗是否收录 360是否收录 百度是否收录 百度年收录 网站年龄 百度安全 百度查询 导出链接 网站ip查询 网站ICP备案批量查询 搜狗快照 百度快照 百度反链批量查询 搜狗PR批量查询 谷歌PR批量查询 神马权重批量查询 360移动权重批量查询 站长移动权重批量查询 爱站移动权重批量查询 360权重查询 站长PC权重批量查询 爱站PC权重批量查询 搜狗总收录批量查询 360日收录批量查询 360总收录批量查询 百度月收录批量查询 百度周收录批量查询 百度日收录批量查询 百度网站收录批量查询 获取网站IP 获取网站描述 获取网站关键词 获取网站标题 HTTP状态码 搜狗权重 搜狗反链 神马总收录 百度预计流量 ALEXA排名 360反链

当前位置 博文首页 > Python爬虫基础之爬虫的分类知识总结

最大化 缩小

    Python爬虫基础之爬虫的分类知识总结

    作者:松鼠爱吃饼干 时间:2021-06-07 17:43

    一、通用爬虫

    通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。为搜索引擎提供搜索支持。

    第一步

    搜索引擎去成千上万个网站抓取数据。

    第二步

    搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库(也就是文档库)。其中的页面数据与用户浏览器得到的HTML是完全—样的。

    第三步

    搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理:中文分词,消除噪音,索引处理。。。
    搜索引擎在对信息进行组织和处理后,为用户提供关键字检索服务,将用户检索相关的信息展示给用户。展示的时候会进行排名。

    二、搜索引擎的局限性

    • 搜索引擎抓取的是整个网页,不是具体详细的信息。
    • 搜索引擎无法提供针对具体某个客户需求的搜索结果。

    聚焦爬虫

    针对通用爬虫的这些情况,聚焦爬虫技术得以广泛使用。聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页数据。

    三、Robots协议

    robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。——百度百科

    Robots协议也叫爬虫协议、机器人协议等,全称是“网络爬虫排除标准”(Robots ExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,例如:

    淘宝: https://www.taobao.com/robots.txt
    百度: https://www.baidu.com/robots.txt

    四、请求与相应

    网络通信由两部分组成:客户端请求消息服务器响应消息

    浏览器发送HTTP请求的过程:

    1.当我们在浏览器输入URL https://www.baidu.com的时候,浏览器发送一个Request请求去
    获取 https://www.baidu.com 的html文件,服务器把Response文件对象发送回给浏览器。

    2.浏览器分析Response中的HTML,发现其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。浏览器会自动再次发送Request去获取图片,CSS文件,或者JS文件。

    3.当所有的文件都下载成功后,网页会根据HTML语法结构,完整的显示出来了。

    实际上我们通过学习爬虫技术爬取数据,也是向服务器请求数据,获取服务器响应数据的过程。

    js
    上一篇: CECBC的博客:区块链技术发展面临七大关键挑战以及未来的五大展
    下一篇:没有了
  • 立即下载 - IIS7 站长工具包
    最新 更多<<
  • Python爬虫基础之爬虫的分类知识总结
  • CECBC的博客:区块链技术发展面临七大关键挑战以及未来的五大展
  • 过往记忆大数据:2019 年度最佳编程语言居然不是 Python,而是 C
  • 黄智霖的博客:Java并发编程(十):ReentrantLock-NonfairSync源
  • Python爱好者的专栏:2020十大科技趋势展望
  • ehaiju的博客:构建智慧城市的“新细胞”:“未来社区”
  • 俊哥:展望未来:对GIS未来的五项思考
  • 博文视点(北京)官方博客:编程ING:人人都能学会程序设计
  • Echooo147的博客:走入编程路之前的自述:小白的未来展望
  • 程序员学院:程序员学院-版本更新说明
  • sun13212715744的博客:艺术论文题目汇总大全
  • sun13212715744的博客:医学检验论文题目大全汇总
  • 麦田里:幸有一事,生死可许
  • Just do it !:总结2014——迷茫以及迷茫过后的坚持
  • 要想到做到——微信公众号“编程阳光”:我的2014——典型程序员
  • 郭晓湉:我的2014作的一手好死,2015求轻虐
  • xiao_lxl的专栏:我的2014点点滴
  • 若云流风的专栏:转身不带走一丝云彩--我的2014
  • Bannings的专栏:我的2014-转行转行再转行,坚守互联网
  • 更上一层楼!:认真对待 Python3 收邮件
  • linghu745的专栏:代码版本远程发布程序
  • 不酷不帅又怎样我有他就够了 - 高调秀恩爱的情侣个性签名精选201
  • 你是值得我过一辈子的人 - 2019低调秀恩爱的情侣个性签名暖心唯
  • 好听秀恩爱情侣签名一男一女 - 2018最新情侣个性签名幸福誓言
  • 幸福秀恩爱情侣签名一男一女 - 最新版微信情侣个性签名一对简短
  • 好听独特的情侣签名两个一男一女 - 2018最火爆的情侣个性签名精
  • 我会找到你无论你在哪 - 2019低调秀恩爱情侣个性签名一对独一无
  • 我有个甜甜的梦梦里有你 - 情侣个性签名一对甜蜜超萌最新版
  • 遇见你是我最好的年华 - 秀恩爱情侣个性签名一对唯美好听
  • 越是喜欢你越想一直粘着你 - 2018最新情侣个性签名一对甜蜜幸福
    推荐 更多<<
  • 弃用 32 位!所有基于 IntelliJ 的 IDE 将不再支持 32 位操作系统
  • ruby实现的一个异步文件下载HttpServer实例
  • Ruby中XML格式数据处理库REXML的使用方法指南

深圳SEO优化公司沈阳网站优化按天扣费公司长沙网站优化推广哪家好常德seo网站优化推荐大运网络推广多少钱益阳网站搜索优化哪家好济宁网络推广推荐玉树优化衡阳至尊标王哪家好达州品牌网站设计公司大连网站优化公司廊坊百姓网标王推广报价红河网络推广公司滁州关键词排名包年推广柳州百度网站优化排名哪家好西乡网络广告推广哪家好怀化模板网站建设多少钱常州设计网站苏州网页制作价格西乡网络推广报价鹤壁百姓网标王推广推荐汉中推广网站报价黔东南网络广告推广推荐榆林网站建设设计报价东莞百度竞价报价庆阳优化哪家好芜湖SEO按天收费哪家好张家口seo优化推荐布吉营销网站推荐玉树SEO按天扣费报价昌吉营销网站推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化