Python爬虫技巧：百万级数据怎么爬取

最新推荐文章于 2023-10-09 14:04:02 发布

万变ip

最新推荐文章于 2023-10-09 14:04:02 发布

阅读量6.2k

点赞数

分类专栏：编程 http代理ip 网络爬虫文章标签： 1024程序员节

原文链接： www.wanbianip.com

版权

编程同时被 3 个专栏收录

22 篇文章 0 订阅

订阅专栏

网络爬虫

22 篇文章 1 订阅

订阅专栏

http代理ip

15 篇文章 1 订阅

订阅专栏

如今互联网时代，爬虫无处不在，许多行业都使用爬虫采集数据，比如电子商务行业，在大量的数据中可以挖掘有价值的资料。

采集的平台有大有小，小平台好采集，但大平台就不容易了，除了反爬机制厉害之外，技术难度也增加了。如果需要采集上百万的数据，应该怎么采集呢？下面跟**万变ip**加速器工程师一起去了解一下百万级数据怎么爬取。

一、百万级的数据
1.目标网站的选择
次我选择的是大名鼎鼎的Stackoverflow, 程序员心中有两大圣殿。一个是GitHub里面有很多很多好的库和源码，一个就是Stackoverflow里面有很多大牛帮忙回答问题。我们打开Stackoverflow，然后搜索Python相关的问题：

2.页面分析
发现一共有88万多个问题，再看一下页面的列表规律，我们按照每页最大显示50个问题，一共有17776页，数据非常大

二、爬虫的策略
目前为止我还没有爬过这么大的数据量，这次看来必须要用神器了scrapy.其实在用神器之前，我们自己写了多并发的多线程池，我测了一下速度还可以，爬取500个数据大概有6秒左右，跟scrapy差不多

但是考虑到稳定性和方便扩展性，还是用Scrapy比较方便一些
1.页面的爬取
scrapy的文章和资料非常多，基础知识这里我就不细细讲解.scrapy的内置功能非常强大，如果玩爬虫scrapy是必须要学习的，使用起来需要按照它的套路，就像乐高玩具一样，一块一块的搭起来就可以.下面我们讲一下几个关键的点:
1).页面列表的构建
整个的stackoverflow上关于Python的问题页面非常规整，我们可以很容易的构建列表，比如前1000页range(1,1000),range(1000,2000)：

2).单页面的爬取
我们用scrapy genspider产生一个spider文件，我们用这个文件主要爬取页面的内容，每个问题的内容都非常的规则，我们用css非常容易可以提取：
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201024152350187.png#pic_center

我们主要提取问题标题，问题描述，view，vote，answers，提问时间和用户的名字这7个维度

2.数据的存储
我们需要在items.py里面构建一个存储的数据结构类，把这个7个特征存起来

然后在上面的spider类里面把页面解析的数据一一对于存起来
item = StackoverflowItem()
item[ ‘desc’] = desc
item[ ‘title’] =title
item[ ‘view’] =view
item[ ‘answer’] =answer
item[ ‘vote’] =vote
item[ ‘start’] = start
item[ ‘user’] = user
yield item
三、大规模的爬取
看起来好像一切顺利，于是我们开始运行爬虫爬取，大概爬取12000个数据左右,IP就会被封掉,大量的429 错误代码会出现.很明显有反爬的策略.这个时候我们的本机IP已经封掉了，这个时候想要继续爬取，有两个办法：
第一种办法：用代理IP
1).构建一个随机的代理池
网上免费的代理IP池很多，我们可以自己本地解析这些网页构建一个代理池，存在数据库里面，也可以访问一个付费的稳定的代理.
2).构建一个下载的中间价
Scrapy强大之处在于，它给了我们很多接口，扩展性非常好！基本上爬虫的方方面面它都内置了，类似Django真是居家旅行必备。我们只需要几行代码就能搞定

不要忘记了在Setting里面配置一下：
DOWNLOADER_MIDDLEWARES= {
‘stackoverflow.middlewares.RandomProxyMiddleware’: 543,
}
但是代理的ip非常不稳定，尤其是免费的。而且代理IP爬取的时间会比本机更慢，毕竟中间加了中转
第二种方法：重启猫继续用本机IP
一般重启家里的路由器有的时候会换本机的IP地址，因为本机的IP地址爬取的速度是最快，然后放慢爬取的速度，加一些delay.
我采用了第二种方法，爬了999页大概49950条数据，并且放慢了速度，大概需要20分钟左右

我们一共有近90万的数据需要爬取，如果按照这样的速度去爬取的话，大概需要7个小时才能完全爬取完毕。Scrapy提供了非常完善的异常处理和log分析，即使我们中间爬取出错了，我们依然可以获得已经爬取的数据.当然有条件的话可以放在服务器上去爬取，速度会更快.
四、尝鲜看一下数据
数据长啥样，我们随机拿5条出来看一下，数据比较粗糙没有经过清洗，里面比较有价值的是它的view值和answer值，还有时间和标题

目前才近10万条的数据，我们先尝鲜看一下,里面最火的一个问题被998个人围观:

结论：
上文详细的介绍了百万级数据怎么爬取，其实百万数据的爬取其上没有我们想象的那么难，只要熟练使用框架，控制爬取的速度，分段爬取还是可以的! 如果有稳定的代理池和高性能的服务器那就更爽啦。代理池可以自己搭建，也可以选择购买，比如万变ip代理，拥有上千万的IP池，定期更新IP，满足爬虫需求。

万变ip

关注关注

0
点赞
踩
35

收藏

觉得还不错? 一键收藏
1
评论
Python爬虫技巧：百万级数据怎么爬取

如今互联网时代，爬虫无处不在，许多行业都使用爬虫采集数据，比如电子商务行业，在大量的数据中可以挖掘有价值的资料。采集的平台有大有小，小平台好采集，但大平台就不容易了，除了反爬机制厉害之外，技术难度也增加了。如果需要采集上百万的数据，应该怎么采集呢？下面跟**万变ip**加速器工程师一起去了解一下百万级数据怎么爬取。一、百万级的数据1.目标网站的选择次我选择的是大名鼎鼎的Stackoverflow, 程序员心中有两大圣殿。一个是GitHub里面有很多很多好的库和源码，一个就是Stackoverflow
复制链接

扫一扫