首发于大多数人都会的数据采集

研究生新生如何查找论文并下载参考文献？（1）

研究生新生如何查找论文并下载参考文献？（1）

互联网农民工。

01

真实场景交代

我是一名计算机视觉研究生，研究方向是「目标检测（Object Detection）」。在详细阅读相关文献之前，我需要先了解这个领域的发展历程及每个时间段有代表性的文献。

遇到的困难

如何找到这些相关的文献？

明确目标

我希望尽可能找到所有与当前研究领域相关的文献。

工具准备

4.1 领域相关的关键词表：目标检测、Object Detection 等。

4.2 搜索引擎：Google、百度、Bing 等。

4.3 目标网页（数据源）列表：Google 学术、 http://arXiv.org、百度学术、中国知网等。

4.4 Web Scraper 数据采集工具。

5.1 确定使用哪个搜索引擎

Google浏览器（PS：需合理使用），并从「谷歌学术」上搜索我们要的学术文献。如图 1 所示。

图 1

5.2 确定使用什么关键词进行搜索

我们希望目标网页包含 Object Detection 这个词汇，一共有 484000 项匹配结果。如图 2 所示。

图 2

5.3 明确采集的数据项

我们的目的是什么？

我们想知道某一个研究领域的发展历程，那么可以有「文献名称」、「论文引用量」、「相关文献」这三项参考指标（当然还有其他判别指标）。

所以，本次共采集三项数据：“论文名称”、“论文引用量”、“相关文献”。如图 3 所示。

图 3

5.4 打开 Web Scraper 并新建一个工程

点击右侧三个点 -> More Tools -> Developer Tools 。如图 4 所示。

图 4

点击工具栏的三个点并将工具栏调整至浏览器下方。如图 5 所示。

图 5

点击 Web Scraper 。如图 6 所示。

图 6

点击 Create new sitemap ，通过 Create Sitemap 方式新建一个项目。如图 7 所示。

图 7

填充 Sitemap name 和 Start URL 两项内容，填充完毕之后点击 Create Sitemap 。如图 8 所示。

图 8

本文，我们采集搜索结果第 1 页的数据。如图 9 所示。

图 9

我们给采集的每一个数据项分别命名为：title（论文名称）、cited_num（论文引用量）、related_articles（相关文献）。

5.5 设置数据抓取规则

点击刚刚创建的项目。如图 10 所示。

图 10

进入项目之后，点击 Add new selector 。如图 11 所示。

图 11

进入具体的规则设定界面，需要填充 id、Type、Selector、Parent Selecto、是否勾选 Multiple 这五项内容，设置完毕后点击 Save selector 。如图 12 所示。

图 12

首先，我们先采集 title（文献名称）这一数据项。点击刚刚命名的 id 。如图 13 所示。

图 13

进入一个“新结点”，再次点击 Add new selector。如图 14 所示。

图 14

和上述类似，分别设置以下几个规则。如图 15 所示。

图 15

点击 Element preview ，目的是查看数据采集位置是否正确。如图 16 所示。

图 16

点击 Data preview ，目的是预览数据，确保采集的数据是我们想要的。如图 17 所示。

图 17

点击 Data preview 之后看到的数据内容，即最终我们采集到的数据就是这样子。如图 18 所示。

图 18

接着，我们采集第二个数据项 —— cited_num（文献被引用次数）

在“当前结点”点击 Add new selector ，新建一个采集规则。如图 19 所示。

图 19

和上述类似，设置对应的采集规则。如图 20 所示。

图 20

点击 Element preview。如图 21 所示。

图 21

点击 Data preview。如图 22 所示。

图 22

验证下我们预览数据和网页数据是不是一一对应。如图 23 所示。

图 23

最后，采集 related_articles （和本文献相关联的文章）数据项设置对应规则。如图 24 所示。

图 24

点击 Element preview。如图 25 所示。

图 25

点击 Data preview 。如图 26 所示。

图 26

5.6 开始采集数据

点击项目名称后，再选择 Scrape 。如图 27 所示。

图 27

Request interval 和 Page load delay 两项默认即可，点击 Start scraping 。如图 28 所示。

图 28

点击 Start scraping 之后，会重新开启一个网页，此时就是程序正在采集数据的过程，采集结束之后，会自动关闭该窗口。

采集结束后会出现弹框提醒，如图 29 所示。

图 29

5.7 导出数据

点击项目名称，选择 Export data as CSV。如图 30 所示。

图 30

接着会出现如下界面，点击 Download now! 即可。如图 31 所示。

图 31

点击下载之后，“双击打开”或者“在文件夹中显示”都可以。如图 32 所示。

图 32

我们可以看到，这个文件就是我们采集到的数据。如图 33 所示。

图 33

导出的文件名称为 object_detection_project.csv 和我们建项目时的名称一致。如图 34 所示。

图 34

5.8 进行简单的数据清洗

由于 Web Scraper 抓取数据时并不是按照指定顺序的，所以顺序上会出现偏差，我们按照 web-scraper-order 排序下即可。如图 35 所示。

图 35

至此，我们已经成功（了一半）地抓取了 Object Detection 关键词在谷歌学术搜索结果首页的相关信息。

但是，在验证我们采集的数据和网页上的数据是否一致时，我们发现了问题：

cited_num 部分抓取的是人名，而不是对应的引用数量。如图 36 所示。

related_articles 部分抓取的也是人名，而不是对应的文字和链接。如图 36 所示。

图 36

另外，我也想抓取文献的具体下载地址，后续可以直接访问地址并下载文献。

上述的「两个问题 + 抓取文献下载地址」，我们放到下一篇文章来分析。

文章操作内容详细见如下视频：

如果文章对你有微不足道的帮助，like一下就是对我最大的支持，我们下期再见，

编辑于 2021-05-07 12:59

研究生毕业论文

文章被以下专栏收录

大多数人都会的数据采集

利用Web Scraper工具采集你想要的数据。

深圳SEO优化公司长春高端网站设计巴中网站优化按天扣费报价临猗外贸网站制作价格拉萨网站优化按天计费公司沙井网站优化按天计费平湖网站搜索优化迁安网站改版报价定西网络广告推广公司开封百姓网标王推广报价辽阳阿里店铺运营公司淮安网站开发报价百色百度竞价包年推广佛山网站优化价格松岗营销网站报价遂宁百度竞价包年推广价格景德镇网站定制哪家好河池设计公司网站龙华百度关键词包年推广报价沈阳建站公司四平网站设计模板推荐朝阳seo报价宜宾网站制作设计哪家好丹竹头网站设计价格淮南网站优化多少钱龙岩网站开发多少钱丽水网站改版报价徐州设计公司网站公司塘坑百度网站优化排名哪家好哈密网站建设设计张家界设计网站公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化