首发于 爬虫之从入门到精通
爬虫入门到精通-网页的下载

爬虫入门到精通-网页的下载

本文章属于 爬虫入门到精通系统教程第四讲

在爬虫入门到精通第二讲中,我们了解了 HTTP协议,那么我们现在使用这些协议来快速爬虫吧

本文的目标

当你看完本文后,你应该能爬取(几乎)任何的网页

使用chrome抓包

抓包(packet capture)就是将 网络传输发送与接收的 数据包进行截获、重发、编辑、转存等操作,也用来检查网络安全。抓包也经常被用来进行数据截取等。

第一个案列:抓取 轮子哥的动态

1.打开轮子哥动态这个网页


2.打开抓包工具

应该会看到如下界面


3.找到我们需要的请求

可以看到如下截图,里面有这么多的请求,那么到底哪一个才是我们需要的呢 ?

这边提供一个小技巧


简单来讲就是如果整个页面没有刷新的话,那就是在XHR里面,否则在DOC里面

因为本次抓包整个页面有刷新,所以,我们需要找的请求在DOC下面,可以看到只有一个请求



4.验证请求是对的

有以下两种方法(基本上用1,因为比较快)

  1. 在我们要抓包的页面随便copy出几个字,在Respoinse中使用ctrl+f 查找,如果有找到,说明我们找到的是对的 (我查找的是"和微软粉丝谈")

2.把response中所有的内容复制到一个txt中,并改名为"#.html"(这里的#可以随便取)

然后打开这个html,看看是否和我们要抓的一样

如果发现要找的不对,那你可以打开下一个请求检查下

5.模拟发送


点击Headers

可以看到请求的url是: zhihu.com/people/excite

方法是: GET

requests headers 是(下图中框出来的地方)

所以我们的代码应该是:

这段代码简单来说就是把 我们抓包看到的用程序来实现

一个小总结

我们爬取一个网页的步骤可以分为如下:

  1. 打开要爬取的网页
  2. 打开开发者工具,并让请求重发一次(简单讲就是抓包)
  3. 找到正确的请求
  4. 用程序模拟发送

第二个案列:点赞

1.打开要爬取的网页

我们打开 " 知乎 - 与世界分享你的知识、经验和见解"

我们要点赞的回答是这个

2.打开开发者工具,并让请求重发一次

打开后"点击赞一下",可以看到有好多请求

3.找到正确的请求

我们一个一个的点开请求看,发现就一个有返回值,而且这个返回值没有意义,那么怎么确定这个就是我们要找的呢?

我们可以点击Headers,看一下发送的参数

vote_up 很明显,就是点赞的意思。所以这个应该就是我们要找的。


这边说一下,右边"Headers,Preview,Response,Cookies,Timing"是什么意思

我们经常要看的有,headers 和 preview

headers 里面我们都有介绍过(请求头,返回头)

preview和response里面的内容是相同的(preview里面的内容格式化了,输出的好看一些),里面的内容是html返回值


cookies 里面是cookie的值,只不过分成了key value的形式

Timing基本用不上,所以也不介绍了(想了解的话可以自己百度...)


4.用程序模拟发送

我们把headers全部copy,

url也和上面一样

参数也是对的

请求方法是post

但是发现最终返回http code 400,这是为什么呢?

让我们留到下一篇文章~

最后再次总结一下

看完本篇文章后,你应该要



最后大家可以抓一下知乎登录的包哦~

小提示:当你要抓的网页是会自动跳转的话,那么你需要选中“proserve log”

意思是不要在页面重新加载后清除log(抓知乎登录的包会用到)



欢迎关注本人的微信公众号获取更多Python爬虫相关的内容

(可以直接搜索「写bug的高师傅」)

深圳SEO优化公司黔南网站seo优化推荐昆明推广网站哪家好自贡高端网站设计哪家好渭南seo排名公司盐城SEO按天收费永州网站优化按天扣费报价安康建站天津营销型网站建设多少钱大鹏外贸网站制作宣城网站推广方案公司钦州网页制作公司广安网站制作设计多少钱醴陵seo网站推广公司自贡百度关键词包年推广价格咸宁高端网站设计公司金华建设网站报价天水网络营销哪家好伊春百度爱采购报价塘坑网络广告推广推荐宜春网站推广系统多少钱福田营销网站肇庆网站排名优化焦作至尊标王哪家好坂田百度竞价哪家好海西百度seo哪家好伊犁关键词按天收费哪家好德州网站搭建公司渭南SEO按天计费推荐鸡西网站优化按天计费哪家好文山企业网站制作推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化