首发于 猴子数据分析
想做数据分析,分析用的数据get到了吗?

想做数据分析,分析用的数据get到了吗?

想做数据分析吗?

我不知道别人想不想,我是挺想的。

我从大学开始学了7年数学,一直以来我都没有找到自己学习数学的意义,尽管别人说数学是基础学科,什么都可以做。可对我来说,毕业了找工作不知道自己适合做什么;甚至对于别人问“你学数学都学些什么,那些都有什么用呢”都不知道如何回答。我一直在思考怎样才能学有所用,用自己的知识来赢得优势。

在经历了单纯的觉得数据分析好像跟我有点匹配,所以半踏入门槛后(工作换为统计相关),最近突然意识到数据分析的奇妙乐趣还有很多看得见的好处--

最近都沉浸在新世界大门打开的喜悦之中, 不过也不能光顾着乐,既然这么喜欢,那就应该让自己在数据分析方面变得更加专业,实现精神物质共同提高。

怎么能做到呢?

开始做数据分析了?

还没有那么快,我们得先get到分析用的数据。也许有人会说真正工作中,数据往往都是被准备好的,这一步真的有必要吗?

我认为有。一方面我对数据分析应用的期待是全部生活而不是仅限于工作。另一方面,即使只在工作中用,作为一个数据分析者,数据是工作的源头,自己对于怎么得到源头一点都不了解,相当于自己工作从头就不可控,这个风险我不想要。最后,现在学习阶段,有了自己抓取的数据,对于之后的可视化和分析都很有用。

所以我们的课程作业从抓取数据开始。具体的要求是:

1. 数据内容:自己感兴趣行业数据或者自己工作相关,可以在之后用来进行分析和可视化
2. 数据量:>10000条
3. 数据获取工具:易操作的第三方软件(建议)比如 JSK

Step1 梳理任务内容

  1. 内容方面要自己感兴趣或者工作相关,并且可以用于之后的分析。我自己工作相关的数据暂时想不到可以抓取的网站,而且我也没有想好可以做什么分析,所以pass了。考虑可获得+感兴趣+能分析,最后决定收集招聘网站关于数据分析职位的信息。
  2. 数据量要求过万条。我想这个很合理,因为同一个问题数量级不同的时候呈现出的情况可能完全不同,实际应用的时候,数据分析的数据量不会太小,数据太少与要达到的学习目标不匹配。
  3. 数据收集工具:在此之前我在自学Python被它的爬虫搞的晕头转向,基本已经放弃了爬数这块。原来还有傻瓜式的工具,学起来。不过使用过觉得还是自己会写程序更靠谱。

Step2 制定操作计划

1. 确定抓取目标:
(1) 智联招聘网站上数据分析职位在全国范围内的招聘情况;
(2) 包括的信息层面有:公司(城市+规模+性质+行业)+职位要求(学历+经验+人数+职位类别)+薪资+福利;
(3) 数据量要大于1万条.
2. 学习爬虫工具的操作。
3. 整合数据存成excel文件。
4. 总结反思。

Step3 具体执行

  1. 确定爬虫工具需要使用的功能,如下图所示:列表和翻页采集保证了数据条数,层级保证了数据内容的全面。

2. 爬取数据:我一共尝试了三次来解决碰到的问题,主要是根据实际情况调整目标设定以及软件操作问题:

问题1:智联招聘每次搜索,结果列表最多只显示90页。也就是说,我希望做的后续分析中,一线城市本身职位需求分布情况(因为实际结果显示不全)以及不同城市的职位数量对比都没有办法做。

问题分析:网站无法满足我的任务目标。可以考虑的路径:
1) 不换内容,更换招聘网站:我对其他招聘网站不熟,找寻时间不可控.
2) 更换项目内容: 按照可以搜集到1W条的网站更换内容,不想本末倒置;
3) 不换网站,调整任务目标:思考是否可以在现有网站条件下达成目标。

解决办法:我选择了调整任务,考虑将原有任务分解,减少每次搜索结果的数量使其控制在5400条之内;然后将分解采集的数据合并起来。
任务分解思路1:将全国改为北上广深杭5大城市分别采集再合并;缺点是一线城市的职位搜索数量必然是超过5400条的,所以每个城市都采集不全。但因为已经周五了,马上要到交作业的时候了,我还是尝试了这种方式,数据内容大于10000条达标了,就是用于分析的意义不大。
任务分解思路2:最后还是不能接受为了完成作业而完成作业,所以重新梳理分析目标:看北京最近一周招聘数据学析相关岗位分布情况。为了能够get全部数据,搜索条件为:北京+最近一周招聘+全职+职位类别。每个职位类别单独出结果最后再合并。
最终选择的内容抓取第一层信息(上图)
最终选择的内容抓取第2层信息(上图)


问题2:采集列表数据不全,每一页上显示60条招聘信息,只抓取到了10几条。

原因分析:设定路径时选定的内容位置并不是固定的。这是网站的显示方式设定为“详细”时的情况。
解决办法:没有查到如何应对位置不固定的方法,所以从如何能让信息位置固定,发现将网站显示方式设定为“列表”即可,缺点是在这一层采集到的目标信息变少了,第二层的信息要相应增加。
问题原因:“经验”变量并不是全部都有
问题3:要采集的职位类别有10个,需要建立10个规则吗?
解决办法:只需要在测试成功的规则中加入线索就好了,把10个职位类别第1页的网址添加到线索栏即可(图片是网络示例,不是我项目的)


问题4:分层采集时间很长,而且最后合并的时候发现采集内容不正确,串行了。
原因分析:涉及2方面,一个是在设定规则的时候没有注意确认测试内容是否正确;另一方面,对于采集数据的时间预估不够。
解决办法:
采集内容部分:
1. 设定规则时仔细确认测试内容是否符合预期再保存;
2. 进行抓取时检查,先将部分采集信息导入excel,确认信息符合预期。
采集速度部分:
利用“单搜”+“集搜”同时进行。还是会有点慢,没有发现更好的方法。

问题5:从软件系统导入excel后无法使用vlookup公式。
原因分析:系统导出的数据是设有格式的,不能直接运算。
解决办法:将数据选择性粘贴一下,按text格式。

问题6:将结果导入excel文件,因为抓数软件的免费导数额度是10000条,不能满足需求。
解决办法:直接用excel导入

3. 整理结果

1) 第1层和第2层数据分别去重,并删除不必要的变量;
2) 将2层数据通过第2层数据所在的网址用vlookup公式合并;
3)数据内容简单处理并保存。
注:此处的数据截图非最终版但是内容信息是与我最终目标一致的,最终版的第2层数据还在抓取中。

Step4 总结反思

在这个过程中我没有把握好的地方:

下一次自己的改进计划:

期待我的下一个小目标~~

深圳SEO优化公司宿州外贸网站建设报价延安模板推广价格吉林推广网站多少钱淮南优化清远关键词按天收费推荐汉中推广网站多少钱沙井SEO按天收费公司宝安模板制作哪家好白城seo推荐河源网站优化软件多少钱文山企业网站设计价格绍兴网站推广系统多少钱宣城至尊标王报价文山模板网站建设价格承德网站设计推荐南联百度爱采购哪家好昆明网站改版价格重庆百度关键词包年推广哪家好清远网页制作推荐中卫百度网站优化排名公司红河建网站价格开封seo排名公司达州关键词按天计费推荐咸阳seo网站推广多少钱朝阳网站改版报价荆门网页制作价格宝鸡网络广告推广公司黄石网站搜索优化飞来峡营销网站报价飞来峡优化报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化