一种页面数据抓取方法及装置与流程

文档序号:31464900发布日期:2022-09-09 20:34阅读:78来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种页面数据抓取方法及装置与流程

1.本发明属于数据抓取技术领域,特别是涉及一种页面数据抓取方法与一种页面数据抓取装置。


背景技术:

2.因特网作为一个快速发展的计算机网络,在用户群快速增长的同时,网络中的网页数量更是以一个惊人的速度增长,海量的用户群体、海量的应用、海量的网页和海量的搜索请求,如何让人们能够快速的在互联网中搜索到所需要的信息成为了一件非常重要的事情。
3.网络爬虫技术是数据信息采集的常用手段,由于其自动化、拓展性强和开发相对简单等优势,被普遍应用于各行各业的数据模型分析,通过对特定网站或网页中数据的结构进行分析,设定特定的抽取规则,可以将感兴趣的信息从中抽取出来,并保存到数据库或其他格式文件中。
4.现有的页面数据抓取在对相似类型的数据进行抓取时需要设置大量队列的网络爬虫,不仅对页面数据的获取效率较低,而且大量的网络爬虫会对网站运营造成较大压力,并且对页面数据的获取较为单一,不能够将爬虫爬取的数据进行高效裂变,导致页面数据的抓取效果较差,不能进行深度挖掘。


技术实现要素:

5.本发明提供了一种页面数据抓取方法及装置,解决了以上问题。
6.为解决上述技术问题,本发明是通过以下技术方案实现的:
7.本发明的一种页面数据抓取方法,所述方法包括:获取页面数据

裂变获取相关数据

对页面数据进行解析

信息匹配

数据集成输出;
8.具体包括如下步骤:
9.s1、获取页面数据:通过爬虫爬取到的网页,将数据存入原始页面数据库;
10.s2、裂变获取相关数据:通过设定的母数据爬取该母数据参数,将其裂变关联的数据设为标识数据,并将标识数据信息存入数据库;
11.s3、对页面数据进行解析:每次从爬行得到的链接序列中权值最小的链接开始处理,得到该链接对应的页面内,解析该页面,得到该页所有的节点tag和tag之间的文本,按照类型不同分别进行存储标识;
12.s4、信息匹配:将解析页面得到的节点信息与用户给定的模式进行匹配,依次处理每个链接并将符合要求的数据写出;
13.s5、数据集成输出:将每次抽取的所有符合需求的数据集成到一个结构化的文件或数据库中,以便用户进行后续查看或处理。
14.进一步的,所述获取页面数据是的爬虫的数据结构采用最佳优先、深度优先和广度优先中的任一种算法。
15.进一步的,所述获取页面数据包括在由爬虫在爬行得到链接的时,对每个链接按由低到高进行赋权值。
16.进一步的,所述裂变获取相关数据中的标识数据包括该数据裂变的超链接、图片链接、子链接和兄链接中任一种。
17.进一步的,所述信息匹配中用户采用正则表达式用正则表达式形式表示需要抽取的信息格式。
18.进一步的,所述数据集成输出包括数据清洗、数据提取和数据持久化。
19.一种页面数据抓取装置,用于实现一种页面数据抓取方法,包括页面数据采集模块、数据匹配模块和用户指令模块,所述页面数据采集模块和数据匹配模块应用于抓取系统,所述用户指令模块应用于用户界面。
20.进一步的,所述页面数据采集模块的内部包括有爬行抓取单元、数据分类单元、数据裂变单元和数据解析单元;
21.爬行抓取单元:在抓取界面上可以输入需要抓取信息的url,抽取模式以及抽取数据的存放路径,并可以设置从给定url开始的最大访问深度和访问链接的顺序;
22.抓取数据分类单元:将爬虫抓取回来的页面,进行各种步骤的预处理,包括提取文字、中文分词、消除噪音、索引处理、链接关系计算、特殊文件处理,并将处理数据进行分类;
23.数据裂变单元:通过算法对链接样本同各个聚类簇结果进行相似度计算和标识,如标识该链接为超链接、图片链接、子链接和兄链接中任一种,以便于后期处理能识别链接的不同,并按相同类型处理;
24.数据解析单元:对由爬行获取得到的链接所对应的相应页面进行解析,得到该页所有的节点tag和tag之间的文本,按照类型不同分别进行存储;
25.进一步的,所述数据匹配模块的内部包括有数据匹配单元和数据集成单元;
26.数据匹配单元:在对网页进行解析得到所有节点信息后,将解析网页得到的节点信息与用户给定的模式进行匹配,根据匹配成功与否就可以判断当前数据是否合格;
27.数据集成单元:节点匹配用户需求后,保存每一个节点的信息,并按匹配顺序对这些数据进行集成,将每次抽取的所有符合需求的数据集成到一个结构化的文件或数据库中,以便用户进行后续查看或处理。
28.进一步的,所述用户指令模块的内部包括有数据设定指令单元、数据存储指令单元、数据匹配指令单元和数据输出指令单元;
29.数据设定指令单元:用于用户设定抽取网址与抽取模式指令;
30.数据存储指令单元:用于用户发出数据存储指令;
31.数据匹配指令单元:用于用户设定匹配模式指令;
32.数据输出指令单元:用于用户发出数据输出指令。
33.本发明相对于现有技术包括有以下有益效果:
34.本发明通过对爬虫爬取的页面数据进行裂变,将相关链接作为子链接存储,提高了爬虫的数据爬取效率,并且避免了爬虫效率过快对网站造成压力,而且通过对数据的匹配分析,实现了庞大复杂数据的清洗和提取,便于用户最终可以将数据以设定的直观形式输出,确保了用户快速精准的获得页面数据。
35.当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
36.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
37.图1为本发明中一种页面数据抓取方法的流程示意图;
38.图2为本发明中一种页面数据抓取方法的系统算法流程示意图;
39.图3为本发明中一种页面数据抓取方法的交互示意图;
40.图4为本发明中一种页面数据抓取装置的结构示意图。
具体实施方式
41.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
42.请参阅图1-3所示,本发明的一种页面数据抓取方法,方法包括:获取页面数据

裂变获取相关数据

对页面数据进行解析

信息匹配

数据集成输出;
43.具体包括如下步骤:
44.s1、获取页面数据:通过爬虫爬取到的网页,将数据存入原始页面数据库;
45.s2、裂变获取相关数据:通过设定的母数据爬取该母数据参数,将其裂变关联的数据设为标识数据,并将标识数据信息存入数据库;
46.s3、对页面数据进行解析:每次从爬行得到的链接序列中权值最小的链接开始处理,得到该链接对应的页面内,解析该页面,得到该页所有的节点tag和tag之间的文本,按照类型不同分别进行存储标识;
47.s4、信息匹配:将解析页面得到的节点信息与用户给定的模式进行匹配,依次处理每个链接并将符合要求的数据写出;
48.s5、数据集成输出:将每次抽取的所有符合需求的数据集成到一个结构化的文件或数据库中,以便用户进行后续查看或处理。
49.进一步的,获取页面数据是的爬虫的数据结构采用最佳优先、深度优先和广度优先中的任一种算法,通过采用广度优先搜索策略,便于在两个网页之间搜寻最短路径,而且由于广度优先搜索策略是以层为单位的遍历,所以不会出现陷入网站深层页面中出不来的情况。
50.进一步的,获取页面数据包括在由爬虫在爬行得到链接的时,对每个链接按由低到高进行赋权值,对由爬虫爬行得到的链接进行分类并赋以不同权值以规定访问顺序。
51.进一步的,裂变获取相关数据中的标识数据包括该数据裂变的超链接、图片链接、子链接和兄链接中任一种,通过对数据裂变,实现了页面数据提取的大规模提取,并且通过对获得的每个链接按照标准分类器进行分类,对每个链接根据其属性进行标识,以便于后期处理能识别链接的不同,并按相同类型处理。
52.进一步的,信息匹配中用户采用正则表达式用正则表达式形式表示需要抽取的信
息格式;
53.正则表达式是一组特殊的字符序列,由一些事先定义好的字符以及这些字符的组合形成,常常用于匹配字符串,在python中,re模块就是一个用于处理正则表达式的模块;
54.给定一个正则表达式和另一个字符串,可以达到以下两个目的:给定的字符串是否符合正则表达式的过滤逻辑,可以通过正则表达式,从字符串中获取想要的特定部分。
55.进一步的,数据集成输出包括数据清洗、数据提取和数据持久化,由于不规范的数据和实际所需要的信息混在一起,通过数据清洗、提取才能获得实际需要的数据。
56.请参阅图4所示,一种页面数据抓取装置,其特征在于,用于实现一种页面数据抓取方法,包括页面数据采集模块、数据匹配模块和用户指令模块,页面数据采集模块和数据匹配模块应用于抓取系统,用户指令模块应用于用户界面。
57.进一步的,页面数据采集模块的内部包括有爬行抓取单元、数据分类单元、数据裂变单元和数据解析单元;
58.爬行抓取单元:在抓取界面上可以输入需要抓取信息的url,抽取模式以及抽取数据的存放路径,并可以设置从给定url开始的最大访问深度和访问链接的顺序;
59.在抓取时,首先选取一部分的种子url,将这些url放入待抓取url队列;
60.取出待抓取url,解析dns得到主机的ip,并将url对应的网页下载下来,存储进已下载网页库中,并且将这些url放进已抓取url队列;
61.分析已抓取url队列中的url,分析其中的其他url,并且将url放入待抓取url队列,从而进入下一个循环;
62.抓取数据分类单元:将爬虫抓取回来的页面,进行各种步骤的预处理,包括提取文字、中文分词、消除噪音、索引处理、链接关系计算、特殊文件处理,并将处理数据进行分类;
63.爬虫在抓取数据时具有反反爬虫机制:
64.动态更改user-agent,通过用户代理让服务器认为每次请求是来自不同的浏览器;
65.通过获取一定数量的代理ip地址,达到每次请求连接服务器都是来自不同的ip地址的目的,这样可以迷惑服务器,让服务器无法确定具体的访问ip;
66.对爬取速率进行控制,避免对系统的数据爬取频率过快的话,容易造成账户被封禁;
67.建立并维护cookie池,并且每次请求随机设定一个cookie;
68.数据裂变单元:通过算法对链接样本同各个聚类簇结果进行相似度计算和标识,如标识该链接为超链接、图片链接、子链接和兄链接中任一种,以便于后期处理能识别链接的不同,并按相同类型处理,通过先前设定的母链接,爬取母链接的相关链接参数,将其裂变关联的相关链接视为子链接,并将所有的子链接信息存入数据库,实现数据裂变;
69.数据解析单元:对由爬行获取得到的链接所对应的相应页面进行解析,得到该页所有的节点tag和tag之间的文本,按照类型不同分别进行存储,并标识该页为已访问页,在以后的由其他页面至该页面的链接无需再进行重复访问;
70.进一步的,数据匹配模块的内部包括有数据匹配单元和数据集成单元;
71.数据匹配单元:在对网页进行解析得到所有节点信息后,将解析网页得到的节点信息与用户给定的模式进行匹配,根据匹配成功与否就可以判断当前数据是否合格;
72.数据集成单元:节点匹配用户需求后,保存每一个节点的信息,并按匹配顺序对这些数据进行集成,将每次抽取的所有符合需求的数据集成到一个结构化的文件或数据库中,以便用户进行后续查看或处理,由于获取到的数据庞大且复杂,为了更好地进行数据分析,系统可以从多角度对所获得的用户数据进行统计,并以用户设定的直观形式呈现。
73.进一步的,用户指令模块的内部包括有数据设定指令单元、数据存储指令单元、数据匹配指令单元和数据输出指令单元;
74.数据设定指令单元:用于用户设定抽取网址与抽取模式指令,用户通过抽取信息的设置,则使系统在对信息进行组织和处理后,为用户提供页面抓取服务,将用户检索相关的信息存储并展示;
75.数据存储指令单元:用于用户发出数据存储指令,通过用户指令,可以将url地址中指定的网络资源从网络流中读取出来,保存到本地;
76.数据匹配指令单元:用于用户设定匹配模式指令,通过该指令,用户可以对匹配内容和匹配信息进行设定;
77.数据输出指令单元:用于用户发出数据输出指令,通过输出指令的设置,用户可以将爬虫获取的数据以设定的直观格式输出,便于页面数据的直观展示。
78.有益效果:
79.本发明通过对爬虫爬取的页面数据进行裂变,将相关链接作为子链接存储,提高了爬虫的数据爬取效率,并且避免了爬虫效率过快对网站造成压力,而且通过对数据的匹配分析,实现了庞大复杂数据的清洗和提取,便于用户最终可以将数据以设定的直观形式输出,确保了用户快速精准的获得页面数据。
80.以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 心肌桥深度确定系统、装置及存...
  • 一种基于多阶段训练和编辑级别...
  • 用于提取特征向量的方法、装置...
  • 链轮设计方法与流程
  • 一种用于SolidWorks...
  • 基于算法模型的环境整改评判方...
  • 一种基于指令集的微服务拆分方...
  • 转屏处理方法、装置、介质及电...
  • 主题展示方法、装置、终端及计...
  • 一种基于课程学习的图像描述生...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

深圳SEO优化公司运城网站推广方案价格和田高端网站设计报价天津外贸网站设计多少钱石家庄关键词排名多少钱横岗关键词排名报价林芝网站优化排名推荐西宁网站推广方案公司池州seo优化哪家好宜春网站改版哪家好上饶百度竞价包年推广哪家好抚州企业网站建设公司鄂州百度seo公司陇南网站推广系统推荐抚州外贸网站制作白山网站设计模板多少钱蚌埠网站优化推广哪家好南宁百度竞价推荐横岗模板网站建设多少钱十堰百搜标王价格内江网站设计模板哪家好上饶推广网站报价成都百搜标王多少钱昆明优化推荐烟台网站改版梅州模板制作多少钱潍坊网站建设多少钱凉山百度seo推荐邯郸外贸网站制作哪家好凉山关键词排名推荐宿迁网络营销推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化