Scrapy- 异步爬虫框架-分布式爬虫scrapy-redis-python爬虫知识点8

最新推荐文章于 2023-11-26 08:00:00 发布

VIP文章洋芋本人

最新推荐文章于 2023-11-26 08:00:00 发布

阅读量1k

收藏 17

点赞数 6

分类专栏： python爬虫知识文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/weixin_43761516/article/details/117373882

版权

Scrapy异步爬虫框架

一、scrapy简介

（一）scrapy 的工作流程
（二）要用到的方法

二、scrapy 的快速入门

（一）前期准备
（二）items.py封装文件
（三）settings.py配置项文件
（三）爬虫程序名字.py文件
（四）pipelines.py爬虫管道文件
（五）middlewares.py中间键文件

三、scrapy 的多种请求方式

（一）get请求
（二）post请求
（三）添加cookies
（四）设置代理ip

四、crawlspider自动获取url

（一）准备程序
（二）爬虫程序名字.py文件

五、scrapy-redis分布式爬虫

（一）scrapy_redis工作流程
（二）实现分布式爬虫步骤

六、scrapy 的实现案例

一、scrapy简介

什么是Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取
Scrapy，基于异步，使用了Twisted异步网络框架，可以加快我们的下载速度

优点

可配置、可扩展性非常高
比较灵活，让稳定和快速
基于异步，内部封装了这个twisted异步网络框架，复杂，采用了大量闭包
也提供了可控的速度

异步和非阻塞的区别

异步：调用在发出之后，这个调用就直接返回，不管有无结果
非阻塞：关注的是程序在等待调用结果时的状态，指在不能立刻得到结果之前，该调用不会阻塞当前线程

（一）scrapy 的工作流程

Scrapy 功能组成	作用	是否还要编写
Scrapy engine(引擎)	总指挥：负责数据和信号的在不同模块间的传递发动机、统筹全局、整个框架的核心	不需要， scrapy已经实现
Scheduler(调度器)	一个队列,存放引擎发过来的request请求（接收从引擎发过来的url，入列，然后向引擎发送request请求，直到url全部取完）	不需要
Downloader(下载器)	接收引擎发过来的请求，发出网页请求，得到相应结果，源码给引擎	不需要
Spider(爬虫)	处理引擎发来的response,提取数据,提取url,并交给引擎	需要手写
Item Pipline(管道)	处理引擎传过来的数据,比如存储（数据处理、存储数据）	需要手写
Downloader Middlewares(下载中间件)	可以设置headers、代理IP等），处理引擎和下载器之间的请求和响应	一般不用手写
Spider Middlewares(爬虫中间件)	可以自定义requests请求和进行response过滤。处理下载器之间的请求与响应、和发出新的请求）	一般不用手写

（二）要用到的方法

一些方法	作用
response.body	返回网页源代码，未解码
response.text	返回网页源代码，解码str形式
response.xpath(xpath路径)	xapth路径，和普通xpath一样
scrapy.Request()	返回给下载器，翻页和爬详情页会用到，参数：callback回调函数、dont_filter=True，默认false去重，meta={‘item’:item}用来给回调函数传参

meta覆盖问题

利用meta参数在进行不同的解析方法之间传递数据的时候，如果需要继续的交给调度器去请求，会出现item被覆盖的问题
解决方案：1 用deepcopy 2 创建新的item对象

二、scrapy 的快速入门

（一）前期准备

第一步先创建scrapy项目 (dos命令行 pycharm终端)

scrapy startproject mySpider(scrapy项目的名称)

scrapy startproject gsw

第二步创建爬虫程序

scrapy genspider demo “demo.cn” (demo是你爬虫的名字 demo.cn 爬取的范围)
demo的名字最好不要和scrapy项目的名称重合
记得切换工作环境 cd

scrapy genspider gs "gushiwen.cn"

第三步运行scrapy的命令

1 在终端 scrapy crawl 爬虫程序名字(例如db)

最低0.47元/天解锁文章

6
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
2
评论
Scrapy- 异步爬虫框架-分布式爬虫scrapy-redis-python爬虫知识点8

一、scrapy简介优点可配置、可扩展性非常高比较灵活，让稳定和快速基于异步，内部封装了这个twisted异步网络框架，复杂，采用了大量闭包也提供了可控的速度队列1，保存每一页的url，爬取数据爬取的数据后保存到队列2中，存放图片的url和名字线程，去队列中get 图片url 并保存文件搭好架子cto 技术总监架构师ceo二、scrapy 的工作流程引擎–发动机–统筹全局 - 整个框架的核心调度器–接收从引擎发过来的url，入列，一直工作到没有url了爬虫程序：整
复制链接

扫一扫

洋芋本人 CSDN认证博客专家 CSDN认证企业博客

85: 原创

7万+: 周排名

4万+: 总排名

3万+: 访问

: 等级

987: 积分

50: 粉丝

36: 获赞

55: 评论

197: 收藏

写文章

热门文章

解析网页-selenium-非常实用-python爬虫知识点7 2495
一、计算机基础 2288
8Flask-----------Flask框架------------安装使用、基本介绍 2263
简单抢铁路票代码-selenium 1969
百度贴吧帖子爬取 -正则表达式 - BeautifulSoup - selenium - python爬虫 1901

分类专栏

python爬虫知识 10篇
web全栈开发知识 50篇
数据库 19篇
计算机知识点 7篇
python总结 12篇
python项目练习 10篇
powerbi 1篇
练习题 1篇

最新评论

7Vue---------------Vue网页开发------------------全栈式开发48
CSDN-Ada助手: 为什么React 要提供 React Hooks 这种组件，普通的Component类不好么？
8Flask-----------Flask框架------------安装使用、基本介绍
Passerby_Wang: 写得也太详细了吧，学到了好多也欢迎博主来我这里指点一二呀
爬虫前导知识-Http请求与响应-NetWork怎么看-python爬虫知识点1
zkzap: network只能看自己电脑到服务器的请求信息？
一、计算机基础
鲍金昌: 写的鞭辟入里，学到了很多，感谢博主分享
简单抢铁路票代码-selenium
洋芋本人: 是不是没有加浏览器驱动，driver = webdriver.Chrome()

大家在看

基于Selenium对动态页面的数据进行采集（附滑动验证码解决办法） 111
Agent思维过程样例 315
如何在 Golang 程序中实现对 Vue.js 单页应用路由支持
【CTF Web】CTFShow web13 Writeup（PHP+文件上传+RCE）
刷机维修进阶教程------更换字库刷机了解分区结构关键分区刷写指纹修复的基础常识高通分区

最新文章

二、深入理解计算机系统第一章计算机系统漫游
一、计算机基础
9Django-----------Django框架------------安装使用、基本介绍

目录

目录

分类专栏

python爬虫知识 10篇

web全栈开发知识 50篇

数据库 19篇

计算机知识点 7篇

python总结 12篇

python项目练习 10篇

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

打赏作者

洋芋本人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

您的余额不足，请更换扫码支付或充值

打赏作者

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

深圳SEO优化公司阿坝网站优化软件泉州网站设计推荐临沂企业网站改版哪家好海西百度网站优化排名哪家好清远seo优化报价榆林建设网站哪家好广州seo网站推广推荐垦利网站排名优化报价海北百搜标王公司爱联网站搜索优化价格朝阳seo 崇左网络推广威海网络推广报价庆阳网站设计报价襄樊百度标王推荐诸城网页制作价格成都设计公司网站绍兴品牌网站设计价格和田SEO按效果付费报价韶关SEO按天收费多少钱聊城高端网站设计哪家好南通企业网站制作推荐衡阳关键词排名包年推广哪家好焦作seo网站优化报价张北百搜标王多少钱宝鸡seo排名价格哈密英文网站建设价格固原百度网站优化排名多少钱红河网站搜索优化淮安网页设计多少钱歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化