学科分类

学科分类

Java

前端

Python

大数据

PHP

C/C++

基础

高级

Django框架

网络爬虫

网络爬虫概述

网络爬虫产生背景

什么是网络爬虫

网络爬虫的用途

网络爬虫的分类

通用爬虫和聚焦爬虫

累积式和增量式爬虫

表层爬虫和深层爬虫

爬虫的实现原理和技术

爬虫实现原理简介

通用爬虫工作原理

聚焦爬虫工作原理

爬虫抓取网页的详细流程

通用爬虫中网页的分类

通用爬虫相关网站文件

robots.txt文件

Sitemap.xml文件

反爬虫应对策略

为什么选择Python做爬虫

网页请求原理

浏览网页过程

浏览器加载网页的过程

统一资源定位符URL

计算机域名系统DNS

HTTP网络请求原理

分析浏览器加载完整网页的过程

客户端HTTP请求格式

服务端HTTP响应格式

HTTP抓包工具Fiddler

Fiddler的工作原理

Fiddler的下载与安装

Fiddler界面详解

Fiddler抓取HTTPS设置

使用Fiddler捕获Chrome的会话

数据抓取

什么是urllib库

快速使用urllib爬取网页

快速爬取一个网页

分析urlopen方法

使用HTTPResponse对象

构造Request对象

使用urllib实现数据传输

URL编码转换

处理GET请求

处理POST请求

添加特定Headers—请求伪装

代理服务器

简单的自定义opener

设置代理服务器

超时设置

常见的网络异常

URLError异常

HttpError异常

更人性化的requests库

什么是requests库

requests库初体验

发送请求

返回响应

数据解析

了解网页数据和结构

网页数据格式

查看网页结构

数据解析技术

正则表达式

XPath与lxml解析库

什么是XPath

XPath语法

XPath开发工具

什么是lxml库

lxml库的基本使用

Beautiful Soup

什么是Beautiful Soup

构建BeautifulSoup对象

通过操作方法进行解读搜索

通过CSS选择器进行搜索

JSONPath和json模块

什么是JSON

JSON与XML语言比较

json模块

json模块基本使用

JSONPath介绍

JSONPath与Xpath语法对比

并发下载

多线程爬虫流程分析

使用queue模块实现多线程爬虫

queue模块简介

Queue类简介

协程实现并发爬取

协程爬虫的流程分析

第三方库gevent

动态内容抓取

动态网页介绍

selenium和PhantomJS概述

selenium和PhantomJS安装配置

selenium和PhantomJS基本使用

入门操作

定位UI元素

鼠标动作链

填充表单

弹窗处理

页面切换

页面前进和后退

获取页面Cookies

页面等待

图像识别与文字处理

OCR技术简介

Tesseract引擎的下载和安装

pytesseract和PIL库概述

pytesseract库简介

PIL库简介

处理规范格式的文字

读取图像中格式规范的文字

对图片进行阈值过滤和降噪处理

识别图像的中文字符

处理验证码

验证码分类

简单识别图形验证码

Scrapy框架

常用爬虫框架介绍

Scrapy框架的架构

Scrapy框架的运作流程

安装Scrapy框架

Windows 7系统下的安装

Linux（Ubuntu）系统下的安装

Mac OS系统下的安装

Scrapy框架的基本操作

新建一个Scrapy项目

明确抓取目标

制作Spiders爬取网页

永久性存储数据

Scrapy框架的核心组件

Spiders——抓取和提取结构化数据

Item Pipeline——后期处理数据

Downloader Middlewares——防止反爬虫

Settings—定制Scrapy组件

Scrapy框架的CrawlSpider类

初识爬虫类CrawlSpider

CrawlSpider类的工作原理

通过Rule类决定爬取规则

通过LinkExtractor类提取链接

Scrapy-Redis分布式爬虫

Scrapy-Redis简介

Scrapy-Redis的完整架构

Scrapy-Redis的运作流程

Scrapy-Redis的主要组件

搭建Scrapy-Redis开发环境

安装Scrapy-Redis

安装和启动Redis数据库

修改配置文件 redis.conf

分布式的部署

分布式的策略

测试Slave端远程连接Master端

Scrapy-Redis的基本使用

创建Scrapy项目

明确抓取目标

制作Spider爬取网页

执行分布式爬虫

使用多个管道存储

处理Redis中的数据

数据分析

爬虫抓取网页的详细流程

图1展示了使用爬虫抓取网页数据的详细流程，它的主要步骤包括：

图1 爬虫抓取网页流程

(1) 首先选取一些网页，将这些网页的链接地址作为种子URL；

(2) 将这些种子URL放入到待抓取URL队列中；

(3) 爬虫从待抓取URL队列（队列先进先出）中依次读取URL，并通过DNS解析URL，把链接地址转换为网站服务器所对应的IP地址；

(4) 将IP地址和网页相对路径名称交给网页下载器，网页下载器负责页面内容的下载；

(5) 网页下载器将相应网页的内容下载到本地；

(6) 将下载到本地的网页存储到页面库中，等待建立索引等后续处理；与此同时将下载过网页的URL放入到已抓取URL队列中，这个队列记载了爬虫系统已经下载过的网页URL，以避免网页的重复抓取；

(7) 对于刚刚下载的网页，从中抽取出所包含的所有链接信息，并在已抓取URL中检查其是否被抓取过，如果还未被抓取过，则将这个URL放入到待抓取URL队列中；

(8) 下载被放入待抓取URL队列中的URL对应的网页，如此重复3-7，形成循环，直到待抓取URL队列为空。

对于爬虫来说，往往还需要进行网页去重及网页反作弊。

黑马程序员教程（book.itheima.net）是一个免费的IT在线学习平台，它依托黑马程序员优质的课程资源和口碑，致力于为广大热爱IT技术的学习者和求职者提供知识共享服务。

黑马程序员教程包括学习线路图、学习教程、面试宝典三大核心板块，通过构建一个从学习到求职的良性生态圈，配套以专业的技术答疑服务，让学习更有趣，进步更明显，真正做到让学生少走弯路。

联系方式：
电话：15340145407
邮箱：itcast_book@vip.sina.com

深圳SEO优化公司黔南网站优化按天收费哪家好眉山网站seo优化哪家好西宁SEO按天计费公司衢州seo网站推广价格哈密外贸网站设计公司大同至尊标王公司襄樊如何制作网站哪家好鹤壁模板推广推荐伊犁品牌网站设计报价池州百搜标王潍坊英文网站建设推荐铜川网站优化软件公司淮南百度标王报价天门设计公司网站哪家好滁州网络广告推广哪家好朔州百搜标王推荐黔东南营销网站价格本溪网站建设哪家好莆田网站优化推广哪家好自贡高端网站设计公司同乐百度竞价价格中山网站搜索优化安康网站设计模板报价大运推广网站报价丹竹头网络营销哪家好南澳百姓网标王推广周口百度网站优化排名公司十堰SEO按天收费价格运城关键词排名包年推广桂林阿里店铺运营报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化