基于bert算法模型的知识图谱构建方法与流程

文档序号:20949658发布日期:2020-06-02 20:03阅读:1333来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
基于bert算法模型的知识图谱构建方法与流程

本发明属于知识图谱技术领域,具体涉及一种基于bert算法模型的知识图谱构建方法。



背景技术:

在军工集团,每年会产生大量的归零文档,但是现阶段只是将这些非结构化文档存储在磁盘或者知识库中,缺乏有效的处理手段对归零文档的知识进行进一步的处理,而利用知识图谱的方法可以将归零文档的知识体系化、结构化和知识化。常用的知识图谱实体提取方法包括:基于语义序列核方法、特征向量法、bilstm-crf中文命名识别方法等。语义序列核方法是结合中文文本的语义特征,利用七条启发规则来抽取实体;基于特征向量法是将实体抽取问题转化为实体分类问题,常用的特征包括:上下文特征、动词特征、距离特征等;基于bilstm-crf中文命名识别方法是一种端到端的过程,不依赖特征工程,是一种数据驱动方法。

面对大量的非结构化文本,进行图谱实体提取时大多数算法都能提取文档中实体,但是都存在精确度低、速度慢、消耗人力的特点。其中,基于语义序列核方法,在构建规则的过程往往需要大量的语言学知识,不同的语言规则不尽相同,而且很难处理规则之间的冲突,同时构建规则的过程费时费力、可移植性不还;基于特征向量的实体提取方法适合于包含两个句子的关系抽取;基于bilstm-crf中文命名识别方法无法有效的增强字的语义和字的多义性、无法对文本上下文全向预测。



技术实现要素:

(一)要解决的技术问题

本发明要解决的技术问题是:为了快速、精准处理大量、复杂、互连、多变的非结构化归零文档数据,如何形成知识图谱和知识体系,方便相关人员快速理解归零文档知识和全面的了解归零文档体系,为军工集团相关应用提供基础的数据支撑。

(二)技术方案

为解决上述技术问题,本发明提供一种基于bert算法模型的知识图谱构建方法,所述方法包括如下步骤:

步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;

步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;

步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;

步骤4:因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;

步骤5:将最终生成的整体归零文档知识图谱三元组存储在图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。

其中,所述步骤3和步骤4之间,还包括:

由于归零文档本身知识体系的不完善性,结合归零文档和公开的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。

其中,所述公开的领域词典包括来自清华的领域词典。

其中,所述公开的领域词典包括来自百度的领域词典。

其中,所述步骤5中,所述图数据库为neo4j图数据库。

其中,所述步骤5中,所述图数据库为janusgraph图数据库。

(三)有益效果

与现有技术相比较,本发明通过使用bert-bilstm-crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取;利用句法依存关系对关系提取,并通过领域图谱的上下位关系、同意关系、反义关系、关联关系实现多个文档的横向和纵向关联,形成归零文档的知识体系和知识图谱。与现有技术相比,本发明提出的技术方案,实现了军工集团归零文档知识的体系化、结构化和知识化等,同时,基于bert-bilstm-crf中文命名识别算法模型,也保证了段落实体提取的快速性和精准性。

附图说明

图1为基于bert算法模型的知识图谱构建流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。

为解决现有技术问题,本发明提供一种基于bert算法模型的知识图谱构建方法,如图1所示,所述方法包括如下步骤:

步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;

步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;

步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;

步骤4:在处理归零文档的时候发现,不同归零文档实体之间存在上下位关系、同意关系、反义关系、关联关系等,因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;

步骤5:将最终生成的整体归零文档知识图谱三元组存储在neo4j、janusgraph等图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。

由于归零文档的实体和关系没有完整的属性知识支撑,所以通过爬虫和人工手动录入填报的方式对实体和关系的属性进行补充和完善。

其中,所述步骤3和步骤4之间,还包括:

由于归零文档本身知识体系的不完善性,结合归零文档和公开(清华、百度)的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。

其中,所述公开的领域词典包括来自清华的领域词典。

其中,所述公开的领域词典包括来自百度的领域词典。

其中,所述步骤5中,所述图数据库为neo4j图数据库。

其中,所述步骤5中,所述图数据库为janusgraph图数据库。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。



技术特征:

1.一种基于bert算法模型的知识图谱构建方法,其特征在于,所述方法包括如下步骤:

步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;

步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;

步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;

步骤4:因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;

步骤5:将最终生成的整体归零文档知识图谱三元组存储在图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。

2.如权利要求1所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述步骤3和步骤4之间,还包括:

由于归零文档本身知识体系的不完善性,结合归零文档和公开的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。

3.如权利要求2所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述公开的领域词典包括来自清华的领域词典。

4.如权利要求2所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述公开的领域词典包括来自百度的领域词典。

5.如权利要求1所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述步骤5中,所述图数据库为neo4j图数据库。

6.如权利要求1所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述步骤5中,所述图数据库为janusgraph图数据库。


技术总结
本发明属于知识图谱技术领域,具体涉及一种基于bert算法模型的知识图谱构建方法。与现有技术相比较,本发明通过使用bert‑bilstm‑crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取;利用句法依存关系对关系提取,并通过领域图谱的上下位关系、同意关系、反义关系、关联关系实现多个文档的横向和纵向关联,形成归零文档的知识体系和知识图谱。与现有技术相比,本发明提出的技术方案,实现了军工集团归零文档知识的体系化、结构化和知识化等,同时,基于bert‑bilstm‑crf中文命名识别算法模型,也保证了段落实体提取的快速性和精准性。

技术研发人员:牛志超;南海涛;刘林;马语菡;王俊;费廷伟;刘戎;徐永伟;高晓琼
受保护的技术使用者:北京京航计算通讯研究所
技术研发日:2019.11.14
技术公布日:2020.06.02
完整全部详细技术资料下载
相关技术
  • 一种字段提取方法、装置及计算...
  • 基于层级结构多标签体系的新闻...
  • 一种网络舆情信息监控预警系统...
  • 一种基于科技词条的批量任务专...
  • 基于行为结构和语义内容联合分...
  • 文本差异识别方法和装置与流程
  • 基于学科树聚类的作者消歧方法...
  • 一种基于区块链架构的语言数据...
  • 一种文本语义关系提取方法及系...
  • 基于公共标识语双语语料的分类...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
排序算法相关技术
  • 一种地球化学数据元素序结构分析方法及装置与流程
  • 基于变量节点可靠性的低复杂度LDPC动态调度译码更新方法与流程
  • 一种基于比特翻转算法的硬判决译码实现方法与流程
  • 一种增强AR追踪稳定性的电子稳像方法与流程
  • 一种自动排序与整理机构的制作方法与工艺
  • 一种应用于空间调制的低复杂度排序A*检测算法的制作方法与工艺
  • 基于树搜索的对偶格约减低复杂度MIMO检测算法的制作方法与工艺
  • 一种子模块拓扑以及一种MMC换流器的制作方法与工艺
  • 一种稳定性好的(S)-4-羟基-2氧代-1-吡咯烷乙酰胺泡腾片及其制备方法与流程
  • 基于分区组合Kruskal算法的海上风电场拓扑设计方法与流程

深圳SEO优化公司商洛外贸网站制作渭南百搜标王金昌seo网站优化公司安康关键词按天扣费报价郴州企业网站设计哪家好无锡百度seo推荐南京建网站公司株洲百姓网标王推广报价南京网站优化软件哪家好雅安阿里店铺运营价格大丰网站优化推广推荐淄博网络推广报价横岗百度seo推荐池州关键词按天扣费价格石岩至尊标王价格运城外贸网站建设哪家好大连百度竞价推荐黔东南网站推广方案多少钱惠州网络广告推广公司泰州模板推广吴忠阿里店铺托管公司中卫seo优化价格滨州设计网站报价防城港网络营销多少钱阜阳企业网站制作公司绥化百度网站优化合肥百搜标王哪家好焦作百度竞价哪家好光明网站优化排名价格德州百度seo公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化