学科分类
学科分类
Java
前端
Python
大数据
PHP
C/C++
目录
基础
高级
Django框架
网络爬虫
网络爬虫概述
网络爬虫产生背景
什么是网络爬虫
网络爬虫的用途
网络爬虫的分类
通用爬虫和聚焦爬虫
累积式和增量式爬虫
表层爬虫和深层爬虫
爬虫的实现原理和技术
爬虫实现原理简介
通用爬虫工作原理
聚焦爬虫工作原理
爬虫抓取网页的详细流程
通用爬虫中网页的分类
通用爬虫相关网站文件
robots.txt文件
Sitemap.xml文件
反爬虫应对策略
为什么选择Python做爬虫
网页请求原理
浏览网页过程
浏览器加载网页的过程
统一资源定位符URL
计算机域名系统DNS
HTTP网络请求原理
分析浏览器加载完整网页的过程
客户端HTTP请求格式
服务端HTTP响应格式
HTTP抓包工具Fiddler
Fiddler的工作原理
Fiddler的下载与安装
Fiddler界面详解
Fiddler抓取HTTPS设置
使用Fiddler捕获Chrome的会话
数据抓取
什么是urllib库
快速使用urllib爬取网页
快速爬取一个网页
分析urlopen方法
使用HTTPResponse对象
构造Request对象
使用urllib实现数据传输
URL编码转换
处理GET请求
处理POST请求
添加特定Headers—请求伪装
代理服务器
简单的自定义opener
设置代理服务器
超时设置
常见的网络异常
URLError异常
HttpError异常
更人性化的requests库
什么是requests库
requests库初体验
发送请求
返回响应
数据解析
了解网页数据和结构
网页数据格式
查看网页结构
数据解析技术
正则表达式
XPath与lxml解析库
什么是XPath
XPath语法
XPath开发工具
什么是lxml库
lxml库的基本使用
Beautiful Soup
什么是Beautiful Soup
构建BeautifulSoup对象
通过操作方法进行解读搜索
通过CSS选择器进行搜索
JSONPath和json模块
什么是JSON
JSON与XML语言比较
json模块
json模块基本使用
JSONPath介绍
JSONPath与Xpath语法对比
并发下载
多线程爬虫流程分析
使用queue模块实现多线程爬虫
queue模块简介
Queue类简介
协程实现并发爬取
协程爬虫的流程分析
第三方库gevent
动态内容抓取
动态网页介绍
selenium和PhantomJS概述
selenium和PhantomJS安装配置
selenium和PhantomJS基本使用
入门操作
定位UI元素
鼠标动作链
填充表单
弹窗处理
页面切换
页面前进和后退
获取页面Cookies
页面等待
图像识别与文字处理
OCR技术简介
Tesseract引擎的下载和安装
pytesseract和PIL库概述
pytesseract库简介
PIL库简介
处理规范格式的文字
读取图像中格式规范的文字
对图片进行阈值过滤和降噪处理
识别图像的中文字符
处理验证码
验证码分类
简单识别图形验证码
Scrapy框架
常用爬虫框架介绍
Scrapy框架的架构
Scrapy框架的运作流程
安装Scrapy框架
Windows 7系统下的安装
Linux(Ubuntu)系统下的安装
Mac OS系统下的安装
Scrapy框架的基本操作
新建一个Scrapy项目
明确抓取目标
制作Spiders爬取网页
永久性存储数据
Scrapy框架的核心组件
Spiders——抓取和提取结构化数据
Item Pipeline——后期处理数据
Downloader Middlewares——防止反爬虫
Settings—定制Scrapy组件
Scrapy框架的CrawlSpider类
初识爬虫类CrawlSpider
CrawlSpider类的工作原理
通过Rule类决定爬取规则
通过LinkExtractor类提取链接
Scrapy-Redis分布式爬虫
Scrapy-Redis简介
Scrapy-Redis的完整架构
Scrapy-Redis的运作流程
Scrapy-Redis的主要组件
搭建Scrapy-Redis开发环境
安装Scrapy-Redis
安装和启动Redis数据库
修改配置文件 redis.conf
分布式的部署
分布式的策略
测试Slave端远程连接Master端
Scrapy-Redis的基本使用
创建Scrapy项目
明确抓取目标
制作Spider爬取网页
执行分布式爬虫
使用多个管道存储
处理Redis中的数据
数据分析

爬虫抓取网页的详细流程

图1展示了使用爬虫抓取网页数据的详细流程,它的主要步骤包括:

img

图1 爬虫抓取网页流程

(1) 首先选取一些网页,将这些网页的链接地址作为种子URL;

(2) 将这些种子URL放入到待抓取URL队列中;

(3) 爬虫从待抓取URL队列(队列先进先出)中依次读取URL,并通过DNS解析URL,把链接地址转换为网站服务器所对应的IP地址;

(4) 将IP地址和网页相对路径名称交给网页下载器,网页下载器负责页面内容的下载;

(5) 网页下载器将相应网页的内容下载到本地;

(6) 将下载到本地的网页存储到页面库中,等待建立索引等后续处理;与此同时将下载过网页的URL放入到已抓取URL队列中,这个队列记载了爬虫系统已经下载过的网页URL,以避免网页的重复抓取;

(7) 对于刚刚下载的网页,从中抽取出所包含的所有链接信息,并在已抓取URL中检查其是否被抓取过,如果还未被抓取过,则将这个URL放入到待抓取URL队列中;

(8) 下载被放入待抓取URL队列中的URL对应的网页,如此重复3-7,形成循环,直到待抓取URL队列为空。

对于爬虫来说,往往还需要进行网页去重及网页反作弊。

点击此处
隐藏目录

深圳SEO优化公司黔南网站优化按天收费哪家好眉山网站seo优化哪家好西宁SEO按天计费公司衢州seo网站推广价格哈密外贸网站设计公司大同至尊标王公司襄樊如何制作网站哪家好鹤壁模板推广推荐伊犁品牌网站设计报价池州百搜标王潍坊英文网站建设推荐铜川网站优化软件公司淮南百度标王报价天门设计公司网站哪家好滁州网络广告推广哪家好朔州百搜标王推荐黔东南营销网站价格本溪网站建设哪家好莆田网站优化推广哪家好自贡高端网站设计公司同乐百度竞价价格中山网站搜索优化安康网站设计模板报价大运推广网站报价丹竹头网络营销哪家好南澳百姓网标王推广周口百度网站优化排名公司十堰SEO按天收费价格运城关键词排名包年推广桂林阿里店铺运营报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化