一种基于知识图谱的招投标网页信息解析方法与流程

文档序号:18986077发布日期:2019-10-29 04:25阅读:908来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种基于知识图谱的招投标网页信息解析方法与流程

本发明属于网页信息解析领域,涉及一种基于知识图谱的招投标网页信息解析方法。



背景技术:

如今,互联网成为了获取信息资源的主要渠道,招投标活动为企业、用户提供了大量有价值的数据,解析招投标网页信息对征信、经济发展有着重要意义。由于招投标网页结构复杂,形式灵活,使用现有技术还存在一些不足:①抽取粒度粗糙,无法满足用户需求;②正则表达式技术虽能满足精确需求,但是人工成本较大,适用性低、灵活性差。



技术实现要素:

本发明目的在于解决招投标网页信息解析效率低下的问题,提供了一种基于知识图谱的招投标网页信息解析方法,本发明重在实现对招投标网页中语义信息的结构化解析。本发明着重考虑两点:①分析招投标领域文本特征,构建招投标领域的知识图谱。②通过知识图谱,实现一种基于编辑距离的招投标网页元素语义匹配与抽取算法。

本发明的技术方案如下:

一种基于知识图谱的招投标网页信息解析方法,第一步:知识图谱构建:

分析招投标文本的结构特征,在此基础上构建招投标领域知识图谱;

第二步:语义信息解析:

将招投标领域知识图谱结合编辑距离的方法,进行招投标网页元素语义匹配与抽取,得到招投标网页中语义信息的结构化解析。

所述的知识图谱构建步骤包括:

(1)招投标文本结构特征分析:通过学习招投标领域的相关知识,从招投标网页中分析招投标文本的结构特征;

(2)知识图谱构建:使用编辑器protégé构建招投标领域知识图谱;

(3)知识图谱存储:通过对知识图谱的解析,得到其概念、属性、层次关系的词典,并且将其持久化到关系型数据库中。

所述的语义信息解析步骤包括:

(1)目标语义信息:定义招投标网页信息结构化解析的目标信息项,即目标语义信息;

(2)预处理:去除招投标网页信息数据的噪声;

(3)信息抽取:基于构建的招投标领域知识图谱,采用编辑距离算法,计算招投标网页元素语义匹配的相似度,最终解析得到招投标网页的结构化语义信息。

本发明的效果和益处:

本发明的方法能够作为解析招投标网页信息的核心实现方法,解决了招投标网页信息解析效率低下的问题,实现招投标网页信息的结构化解析。

附图说明

图1招投标网页解析框架图。

图2招投标知识图谱层次图。

图3信息抽取流程图。

具体实施方式

以下结合技术方案和附图详细叙述本发明的具体实施方式。

如图1所示,本发明提供了一种基于知识图谱的招投标网页信息解析方法,包括如下步骤:

招投标文本结构特征分析:招投标网页数据大多数是以公告形式呈现的半结构化文本信息,其结构特征归纳:招投标文本存在表格信息,表格的结构形式不固定;招投标文本可以用信息块来表示,信息块之间内容相互独立,界限分明;招投标文本信息块可以看作是“概念与概念释义”的组合模式;信息块之间的界限一般以特殊符号分隔。例如:换行、数字编码等;不同来源的招投标文本之间的信息块位置分布相对一致。从招投标网页中分析其文本的结构特征,并以此作为构建招投标知识图谱的知识背景;

知识图谱构建:本发明采用构建轻量级本体的方式,构建招投标领域知识图谱。使用斯坦福大学的编辑器protégé构建,形成的层次结构如图2所示;

知识图谱存储:将构建的知识图谱中的概念以及概念之间的层次关系进行解析,得到概念、属性、层次关系的词典,并且将本体持久化到关系型数据库中;

目标语义信息:通过对招投标领域文本结构特征的分析,归纳出结构化抽取的目标信息项;

预处理:清洗招投标网页信息,去除噪声数据,包括html的标签、图片、样式等,保留标题、文本信息和url信息。

信息抽取:经过预处理后,在招投标知识图谱驱动下,通过招投标网页元素语义匹配与抽取,实现对招投标网页语义信息的结构化解析。如图3所示,信息抽取包括以下步骤:

以“;”“。”和“\n”作为切分界限标识符,切分成句子集合s={s1,s2,..sn};

遍历句子集合s,将si(i=1,2...n)切分成字典形式[si,k:si,v];

导入招投标领域知识图谱模型c={c1,c2...cm};

计算si(i=1,2...n)的key值si,k与cj(j=1,2...m)之间的相似度,公式如下:

上式ld(si,k,cj)表示编辑距离,计算编辑距离采用下式:

其中dij=d(s0...si,c0...cj)0≤i≤n,0≤j≤m,s0...si表示字符串si,k,c0...cj表示字符串cj,ld(si,k,cj)通过(n+1)×(m+1)阶矩阵dij计算得到。di-1,j-1表示删除、di-1,j表示插入、di,j-1表示替换,wa,wb和wc分别表示每一种操作的权重,设置删除、插入权重为1,替换权重为2,即wa=1,wb=1,wc=2。从si,k的第一个位置s0和cj的第一个位置c0开始比较,对已经比较过的编辑距离,继续计算下一个字符位置的编辑距离。矩阵dij从d00逐行逐列计算,最终得到dnm,即编辑距离ld(si,k,cj)。n和m代表si,k和cj的长度,sim值越大表示相似度越高。设置阈值:小于阈值,继续迭代;大于等于阈值,则抽取其value值si,v返回,保存匹配的si,k和si,v信息;

最后判断句子集合s={s1,s2,..sn}是否遍历结束,输出结构化信息。



技术特征:

技术总结
本发明属于网页信息解析领域,涉及一种基于知识图谱的招投标网页信息解析方法。所述的解析方法通过分析招投标文本的结构特征,然后据此构建招投标领域知识图谱,引入一种基于编辑距离的招投标网页元素语义匹配与抽取算法过程,从而实现一种基于知识图谱的招投标网页信息解析。本发明所述方法能够实现对招投标网页中语义信息的结构化解析抽取,具备较好的网页自适应能力,能满足实用性能要求。

技术研发人员:谢振平;马冬雪;刘渊;詹千熠
受保护的技术使用者:江南大学
技术研发日:2019.07.17
技术公布日:2019.10.25
完整全部详细技术资料下载
相关技术
  • 一种实时知识图谱构建系统的制...
  • 海量数据集事件关系抽取方法与...
  • 基于药品说明书的合理用药知识...
  • 一种基于决策树的数据库本体学...
  • 基于关系触发词与GRU模型的...
  • 一种应用于政务大厅运营的知识...
  • 课件智能生成方法、装置、计算...
  • 评论生成及评论生成模型训练方...
  • 实体关联方法、装置、计算机设...
  • 实体关注点挖掘方法、装置、计...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

深圳SEO优化公司优化网站首页蚌埠网站首页优化找哪家对琼海市政府网站的优化建议香港网站权重优化同时优化五个网站网站优化公司找哪家好清远网站关键词优化多少钱杭州优化网站排名网站产品优化询问火30星高清优化型网站网站关键字优化如何优化网站自然搜索排名黑龙江服务网站优化大全做网站优化的教程鄞州区网站关键词优化海林网站关键字优化朝阳网站优化深圳正规的专业网站seo优化孝感专业网站优化网站seo优化视频教程网络营销网站优化软件南宁网站页面优化推荐的上海网站优化上饶网站建设优化公司云引擎网站优化静安网站优化找哪家均安网站优化方式Seo优化网站快速排名宿迁营销网站优化活动简介深圳公司可以网站优化歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化