网络爬虫（1）-- 爬虫简介和原理

最新推荐文章于 2023-12-04 17:48:32 发布

weixin_34256074

最新推荐文章于 2023-12-04 17:48:32 发布

阅读量151

收藏

点赞数

文章标签：爬虫 python 运维

原文链接： https://my.oschina.net/bigdataer/blog/888489

版权

2019独角兽企业重金招聘Python工程师标准>>>

1. 爬虫简介

1.1 爬虫概论

网络爬虫（Web crawler）也叫网络蜘蛛（Web spide）自动检索工具（automatic indexer），是一种”自动化浏览网络“的程序，或者说是一种网络机器人。

爬虫被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理（分检整理下载的页面），而使得用户能更快的检索到他们需要的信息。

通俗的讲，就是把你手动打开窗口，输入数据等等操作用程序代替。用程序替你获取你想要的信息，这就是网络爬虫

1.2 爬虫应用

1.2.1 搜索引擎

爬虫程序可以为搜索引擎系统爬取网络资源，用户可以通过搜索引擎搜索网络上一切所需要的资源。搜索引擎是一套非常庞大且精密的算法系统，搜索的准确性，高效性等都对搜索系统有很高的要求。

1.2.2 数据挖掘

爬虫除了用来做搜索外，还可以做非常多的工作，可以说爬虫现在在互联网项目中应用的非常广泛。

互联网项目通过爬取相关数据主要进行数据分析，获取价值数据。那么爬虫具体可以做那么分析，下面可以简单做一个简单了解：

1）股票分析---预测股市

2）社会学方面统计预测

a) 情绪地图

b) 饮食分布图

c) 票房分析预测

d) 机场实时流量

e) 公交系统实时线路

f) 火车票实时销售统计

3） App下载量分析

2. 爬虫原理

2.1 爬虫目的

一般来讲对我们而言需要抓取的是某个网站或者某个应用的内容，提取有用的价值，进行数据分析。

2.2 爬虫框架设计

为了开发的方便，也可以使用爬虫框架来开发项目中的爬虫：

一个通用的网络爬虫的框架如图所示：

网络爬虫的基本工作流程如下：

1.首先选取一部分精心挑选的种子URL；

2.将这些URL放入待抓取URL队列；

3.从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。

4.分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环

转载于:https://my.oschina.net/bigdataer/blog/888489

weixin_34256074

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫（1）-- 爬虫简介和原理

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

weixin_34256074 CSDN认证博客专家 CSDN认证企业博客

132: 原创

-: 周排名

39万+: 总排名

139万+: 访问

: 等级

8096: 积分

7368: 粉丝

316: 获赞

31: 评论

1760: 收藏

写文章

热门文章

英语方面的缩略语 66163
bcftools将vcf生成bgzip和index格式 24361
vue.js有什么用，是用来做什么的（整理） 20995
利用Landsat8 进行利用土地分类 12717
为什么阿里的dubbo注册中心要放弃zookeeper, 而用Nacos？ 11126

最新评论

Qt5 基于TCP传输的发送/接收文件服务器（支持多客户端）
qq_52050276: 请问，readAll( )是有极限的吧，过大的文件应该怎样控制每次的读取长度，然后第二次可以继续往后读取呢？
[原创]对于“优盘变成了RAW的文件系统，双击提示需要格式化，右键查看属性是0字节，也无法打开”的解决办法...
sky_163: 先别格式化，可以用 WishRecy找回资料。
微信小程序“反编译”实战（二）：源码还原
ღ涵成雨阳iོꦿ࿐: SyntaxError: Unexpected end of input报错了，解析不了wxss
vue.js有什么用，是用来做什么的（整理）
java持续实践: 大佬2019年转行了?
在一个元素上:hover，改变另一个元素的css属性
weixin_51555558: 谢谢困惑了好久了每次都一个个试

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

最新文章

Cassandra 入门(资料收集)
Introduction to Machinery Principles
C++的cout高阶格式化操作

目录

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

深圳SEO优化公司襄樊seo多少钱荷坳建设网站多少钱红河企业网站制作公司临猗品牌网站设计价格泰州网站seo优化哪家好安阳百度关键词包年推广公司十堰百度网站优化排名报价怀化设计公司网站萍乡网络广告推广多少钱木棉湾阿里店铺托管报价哈尔滨企业网站建设报价诸城SEO按天扣费黄冈网站优化按天扣费价格黄石网站推广工具张北网站推广方案价格台州关键词排名包年推广多少钱漳州网站优化推广价格百色网站排名优化哪家好醴陵网络推广哪家好陇南网站设计价格大鹏百度网站优化哪家好朝阳外贸网站设计德阳高端网站设计推荐宿州网页制作公司观澜英文网站建设多少钱承德建站多少钱沙井关键词排名多少钱资阳网站推广方案无锡网站优化按天扣费推荐苏州模板制作哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化