详解如何用爬虫批量抓取百度搜索多个关键字数据

最新推荐文章于 2024-08-13 08:48:35 发布

weixin_34268579

最新推荐文章于 2024-08-13 08:48:35 发布

阅读量1.7w

收藏 34

点赞数 7

文章标签：爬虫 python java

原文链接： https://my.oschina.net/u/4016971/blog/2989315

版权

2019独角兽企业重金招聘Python工程师标准>>>

本文介绍如何使用软件的流程图模式，免费采集百度搜索多个关键字的信息数据。

软件下载网址：www.houyicaiji.com

采集结果预览：

下面我们来详细介绍一下如何使用流程图模式，采集在百度输入多个关键字后的数据，具体步骤如下：

步骤一：新建采集任务

1、复制百度搜索的网页地址（需要搜索结果页的网址，而不是首页的网址）

点此了解关于如何正确地输入网址。

2、新建流程图模式采集任务

您可以在软件上直接新建采集任务，也可以通过导入规则来创建任务。

点此了解如何导入和导出采集规则。

步骤二：配置采集规则

1、设置多个关键字循环任务

在流程图模式输入网址新建任务之后，我们点击搜索框，然后在左上角出现的操作提示框内输入要采集的文字，在这里我们输入关键词。

点此了解输入文字组件的更多内容。

关键词输入之后，在页面上出现了输入文字组件，此时只设置了一个关键词，我们需要设置多个关键词的搜索，因此需要拖动一个循环组件到任务栏，然后将输入文字组建拖动到循环组件内，设置循环条件。

我们在循环组件上选择文本列表，然后在框内输入要采集的关键词，设置文字输入组件使用文本内的循环。

点此了解更多循环组件的内容

2、设置提取字段数据

输入多个关键字循环设置好之后，我们设置需要提取的字段数据，点击网页上的字段，在左上角的操作提示框内选择提取全部元素。

抽取出列表页上的字段之后，我们可以右击字段进行相关设置，包括修改字段名称、增减字段、处理数据等。

点此了解更多关于提取字段组件的内容。

我们需要采集标题、链接、摘要及时间等信息，字段设置效果如下：

3、设置下一页

我们采集出了单页的数据，现在需要采集下一页的数据，我们点击页面上的“下一页”按钮，在左上角出现的操作提示框内选择“循环点击下一页”。

点此了解更多关于翻页的内容。

4、设置完整任务

由于流程图模式是一个循环套循环的过程，并列的循环任务无法正常运行，我们需要把抽取所有页面的循环拖入到输入多个关键字的循环内，拖动情况如下：

步骤三：设置并启动采集任务

1、设置采集任务

完成了采集数据添加，我们可以开始启动采集任务了。点击开始采集之后跳出任务栏，任务栏界面上有“更多设置”的按钮，我们可以点击进行设置，也可以按照系统默认的设置。

点击“更多设置”按钮，在弹出的运行设置页面中我们可以进行运行设置和防屏蔽设置，系统默认设置“2”秒请求等待时间，防屏蔽设置就按照系统默认设置，然后点击保存。

2、启动采集任务

点击“保存并启动”按钮，可在弹出的页面中进行一些高级设置，包括定时启动、自动入库和下载图片，本次示例中未使用到这些功能，直接点击“启动”运行爬虫工具。

点此深入了解什么是定时采集。

点此深入了解什么是自动入库。

点此深入了解如何下载图片。

【温馨提示】免费版本可以使用非周期性定时采集功能，下载图片功能是免费的。个人专业版及以上版本可以使用高级定时功能和自动入库功能。

3、运行任务提取数据

任务启动之后便开始自动采集数据，我们从界面上可以直观的看到程序运行过程和采集结果，采集结束之后会有提醒。

步骤四：导出并查看数据

数据采集完成后，我们可以查看和导出数据，软件支持多种导出方式（手动导出到本地、手动导出到数据库、自动发布到数据库、自动发布到网站）和导出文件的格式（EXCEL、CSV、HTML和TXT），我们选择自己需要方式和文件类型，点击“确认导出”。

点此深入了解如何查看和清空采集数据。

点此深入了解如何导出采集结果。

【温馨提示】：所有手动导出功能都是免费的。个人专业版及以上版本可以使用发布到网站功能。

再为您推荐几个相关的采集教程：

如何采集百度搜索的多个关键字的数据（流程图模式）

如何免费采集今日头条信息数据

如何免费采集淘宝商品信息数据

转载于:https://my.oschina.net/u/4016971/blog/2989315

weixin_34268579

7
点赞
踩
34

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_34268579 CSDN认证博客专家 CSDN认证企业博客

161: 原创

4万+: 周排名

201万+: 总排名

124万+: 访问

: 等级

7043: 积分

5506: 粉丝

225: 获赞

19: 评论

1341: 收藏

写文章

热门文章

详解如何用爬虫批量抓取百度搜索多个关键字数据 17644
下面findmax函数将计算数组中的最大元素及其下标值，请编写该函数。 13856
mathtype免费版下载及序列号获取地址 12856
【可视化】热力图绘制原理 12809
glibc安装 10599

最新评论

ArcGIS Engine开发之鹰眼视图
X2424_: 你好，我想问一下这些代码分别是在哪些图层下编辑呀？
实现批量修改AD用户属性
qq_41208464: 看不到图片了，博主，更新一下了
【webssh】网页上的SSH终端
安静听歌: 你好，我最近也在做webssh的项目，我也遇到与你一样的问题，就是宽度只有80个字符的问题，请问如何能够改变这个数值呢？
从4行代码看右值引用
Mr.C: 真的厉害
[Spring Boot] 使用多个Servlet
shanhanyu: 如果有多個代理，比如10個，也只能一個個的這樣配置嗎？

大家在看

(开题)flask框架的高校在线党建平台（程序+论文+python）
9.2 溪降技术：深水断连 342
网站源码企业通用pbootcms模板网页设计主题
高精度除法
深度学习03-神经网络02-激活函数 197

最新文章

matlab练习程序（图像滤波时的边界处理2）
MSYS的安装和使用（windows下linux编程）
Migration: Find Duplicate Objects in Application Desinger Projects

目录

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

深圳SEO优化公司安阳龙安区网站优化公主岭网站优化费用多少网站在第二页优化方法济宁网站关键词优化公司 seo网站优化文章优化网站整站教程推广天河网站优化比较好优化网站二级页面网站seo怎么优化新网站优化需要注意什么推广是优化网站名好吗安宁网站优化收费网站关键词优化机构商丘外贸网站优化哪个好泰州网站排名优化费用上海品划做网站关键词优化网站怎样做关键词优化品牌网站优化收费扬州网站优化效果湖北诚信服务企业网站优化优化网站好做吗排名上首页网站优化武汉做网站seo优化呼市网站排名优化黄冈市网站做优化代理封丘信息化网站搭建优化铁岭市珠宝行业网站优化太原网站优化推广优点南通网站制作优化罗湖付费网站优化怎么做歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化