【信息抽取】如何使用BERT进行关系抽取

事物、概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开。

然而,随着互联网的爆炸发展,人类的知识也随之飞速的增长,因而对关系抽取(Relation Extraction, RE)提出了更高的要求,需要一个有效的RE系统,能够利用更多的数据;有效的获取更多的关系;高效的处理更多复杂的文本;具有较好的扩展性,能够迁移到更多的领域。

本文首先介绍一种基于预训练模型的关系抽取方法,即能够引入现今最有效的预训练模型BERT,来进行关系分类的方法。

作者&编辑 | 小Dream哥

1 预训练模型 

预训练模型是近一两年来NLP领域取得的非常重要的进展。基于大型的预训练模型finetune下游任务,是如今NLP领域非常流行的做法,在很多的NLP任务中都取得了SOTA的效果,我们在此前也写了很多的文章进行介绍,感兴趣的读者可以看看:

【NLP】 深入浅出解析BERT原理及其表征的内容

【NLP】GPT:第一个引入Transformer的预训练模型

【NLP】XLnet:GPT和BERT的合体,博采众长,所以更强

【技术综述】深度学习在自然语言处理中的应用

【每周NLP论文推荐】从预训练模型掌握NLP的基本发展脉络

既然预训练模型这么有效,自然会有用它来做关系抽取和分类的了,我们今天就介绍基于BERT的关系抽取模型。

本文涉及的模型参考论文如下:

[1] Wu S , He Y . Enriching Pre-trained Language Model with Entity Information for Relation Classification[J]. 2019.

[2] Giorgi J , Wang X , Sahar N , et al. End-to-end Named Entity Recognition and Relation Extraction using Pre-trained Language Models[J]. 2019.

2 关系分类

引入BERT进行关系分类,主要目的是为了利用BERT预训练时学到的大量语言本身的知识。基于此,结合关系分类任务的特点,下面介绍一种典型的基于BERT的关系分类模型,并做一些有益的讨论。

1) 模型结构

如上图所示,是该模型的结构,下面做一个简单的介绍:

1.输入层,跟典型的BERT输入层无异。需要注意的是,在这个模型中,分别用特殊符号$和#号标识两个实体的位置。

2.利用了BERT特征抽取后2个部分的特征:

BERT【CLS】位置的embeding和两个实体相对应的embeding

3.将上述3个特征拼接起来,再接一个全连接层和softmax层输出关系的分类。

论文中用到的模型参数如下,感兴趣同学可以复现一下:

2) 模型结果

模型结构并不复杂,但是取得了不错的效果:

我们可以认为模型对分类任务起到关键效果的部分有3个:

1.BERT【CLS】embedding,学习到了句子级的特征

2.BERT实体embedding,学习到了实体的语义特征

3.特殊符号,带给了模型实体的边界及位置信息

论文做了实验来论证这3部分特征的作用,如下图所示:

1.R-BERT-NO-SEP-NO-ENT 代表既没有分隔符也没有实体embedding特征的模型

2.R-BERT-NO-SEP代表既没有分隔符的模型

3.R-BERT-NO-ENT代表既没有实体embedding特征的模型

4.R-BERT代表完整的模型结构

结果可以看出,实体embedding和分隔符对模型效果贡献了很大。这主要是因为,在关系分类的任务中,句子的语义信息和两个实体的词级信息均很重要。通过两个分隔符,能够帮助BERT学习两个实体的位置,从而提高模型对实体的表征能力

3 BERT Joint抽取模型

上述模型是一个单纯的关系分类模型,在前面的关系抽取文章中我们提到过,联合抽取通常具有更好的效果,下面介绍一种基于BERT的联合抽取模型,即通过一个模型能够得到输入文本中的实体以及实体之间的关系,供读者参考。

1) 模型结构

如上图所示,是本文要介绍的联合抽取模型的结构图,可以把这个模型分成3个部分:

1.NER Module,实体抽取模块。

2.RE Module,关系分类模块。

3. BERT,共享特征抽取模块。

对于实体抽取模块,跟此前我们介绍的基于BERT的实体抽取模型没有差别,不了解的同学可以出门左转先看一下:

【NLP-NER】如何使用BERT来做命名实体识别

RE模块相对复杂一点,我们详细介绍一下,

RE模块的输入将两个部分的输入近拼接得到:

1.BERT对输入序列编码得到的特征序列;

2.NER模块的输出,经过argmax函数得到一个跟输入序列长度相同的,转化为固定维度的序列。

拼接得到的向量分别通过一个Feed Forward层,通过一个biaffine分类器,预测出实体之间的关系。

biaffine分类器的实际作用如下:

2) 模型结果

如上图所示,该模型在几个数据集中均取得了不错的效果,感兴趣的同学可以实现一下试试。

总结

目前,基于预训练模型的关系抽取即分类模型均取得了SOTA的效果,在实际的生产中也都得到了一定的应用。从事NLP相关工作的读者,务必要熟悉相关的模型。

下期预告:暂无

知识星球推荐

扫描上面的二维码,就可以加入我们的星球,助你成长为一名合格的自然语言处理算法工程师。

知识星球主要有以下内容:

(1) 聊天机器人。

(2) 知识图谱。

(3) NLP预训练模型。

转载文章请后台联系

侵权必究

其他内容

  • 【完结】 12篇文章带你完全进入NLP领域,掌握核心技术

  • 【年终总结】2019年有三AI NLP做了什么,明年要做什么?

  • 【NLP-词向量】词向量的由来及本质

  • 【NLP-词向量】从模型结构到损失函数详解word2vec

  • 【NLP-NER】什么是命名实体识别?

  • 【NLP-NER】命名实体识别中最常用的两种深度学习模型

  • 【NLP-NER】如何使用BERT来做命名实体识别

  • 【NLP-ChatBot】我们熟悉的聊天机器人都有哪几类?

  • 【NLP-ChatBot】搜索引擎的最终形态之问答系统(FAQ)详述

  • 【NLP-ChatBot】能干活的聊天机器人-对话系统概述

  • 【知识图谱】人工智能技术最重要基础设施之一,知识图谱你该学习的东西

  • 【知识图谱】知识表示:知识图谱如何表示结构化的知识?

  • 【知识图谱】如何构建知识体系:知识图谱搭建的第一步

  • 【知识图谱】获取到知识后,如何进行存储和便捷的检索?

  • 【知识图谱】知识推理,知识图谱里最“人工智能”的一段

  • 【文本信息抽取与结构化】目前NLP领域最有应用价值的子任务之一

  • 【文本信息抽取与结构化】详聊文本的结构化【上】

  • 【文本信息抽取与结构化】详聊文本的结构化【下】

  • 【信息抽取】NLP中关系抽取的概念,发展及其展望

  • 【信息抽取】如何使用卷积神经网络进行关系抽取

  • 【NLP实战】tensorflow词向量训练实战

  • 【NLP实战系列】朴素贝叶斯文本分类实战

  • 【NLP实战系列】Tensorflow命名实体识别实战

  • 【NLP实战】如何基于Tensorflow搭建一个聊天机器人

  • 【NLP实战】基于ALBERT的文本相似度计算

言有三
关注 关注
  • 7
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
关系抽取】基于Bert信息抽取模型CasRel
sikh_0529的博客
12-05 4138
文章目录 关系提取是一项自然语言处理 (NLP) 任务,旨在提取实体(例如,比尔盖茨和微软)之间的关系(例如,创始人)。例如,从句子 比尔盖茨创建了微软 中,我们可以提取关系三元组 (比尔盖茨, 创始人, 微软)。关系提取是自动知识图谱构建中的一项关键技术。通过关系抽取,我们可以累积抽取新的关系实体,扩展知识图谱,作为机器理解人类世界的一种方式,在问答、推荐系统和搜索引擎等下游应用很多。大部分的信息抽取任务,实际上就是从语句中抽取“三元组”的任务,具体描述如下:三元组指的是:主实体(subject)、实体间
Python-基于TensorFlow和BERT的管道式实体及关系抽取
08-10
Entity and Relation Extraction Based on TensorFlow and BERT. 基于TensorFlow和BERT的管道式实体及关系抽取,2019语言与智能技术竞赛信息抽取任务解决方案。Schema based Knowledge Extraction, SKE 2019
探索BERT关系抽取中的应用:[BERT-Relation-Extraction](https://gitcode.com/taishan1994/BERT-Relation-Extraction?...
最新发布
gitblog_00031的博客
04-06 844
探索BERT关系抽取中的应用:BERT-Relation-Extraction 项目地址:https://gitcode.com/taishan1994/BERT-Relation-Extraction 在这个数字化信息的时代,自然语言处理(NLP)技术已经成为理解并解析人类语言的关键工具。其中,关系抽取是从非结构化文本中抽取出实体及其相互关系的重要任务。今天,我们要介绍一个基于BERT关系抽...
【文本信息抽取与结构化】详聊如何用BERT实现关系抽取
hacker_long的专栏
03-08 5074
常常在想,自然语言处理到底在做的是一件什么样的事情?到目前为止,我所接触到的NLP其实都是在做一件事情,即将自然语言转化为一种计算机能够理解的形式。这一点在知识图谱、信息抽取、文本摘要这...
利用Bert进行关系抽取
bullnfresh的专栏
05-12 5098
Bert模型是谷歌2018年10月底公布的,反响巨大,效果不错,在各大比赛上面出类拔萃,它的提出主要是针对word2vec等模型的不足,在之前的预训练模型(包括word2vec,ELMo等)都会生成词向量,这种类别的预训练模型属于domain transfer。而近一两年提出的ULMFiT,GPT,BERT等都属于模型迁移,说白了BERT 模型是将预训练模型和下游任务模型结合在一起的,核心目的就是:是把下游具体NLP任务的工作逐渐移到预训练产生词向量上。 ...
基于Bert的实体关系抽取模型
北风吹过的秋
05-10 4727
关注微信公众号:NLP分享汇。【喜欢的扫波关注,每天都在更新自己之前的积累】 文章链接:https://mp.weixin.qq.com/s/OebxnvwjQiVbBZZFL2Un3A 前言 信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。信息抽取任务涉及命名实体识别、指代消解、关系分类等复杂技术,极具挑战性。而本文旨在介绍如何利
使用Bert完成实体之间关系抽取
datayx的文章
01-20 3973
向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx大创所需,所以写了一个模型用来完成关系抽取。最后在百度DuIE数据集的完整测试集上达到95.37%正确率...
使用Bert完成实体之间关系抽取.zip
01-18
准备 将DUIE文件路径放置于代码...将bert-base-chinese放置于同目录下的bert-base-chinese下或者自行指定位置 安装pytorch,cuda,transformer,numpy等组件(实际测试可运行环境为pytorch=1.5.1 transformers=2.5.1)
基于BERT+Biaffine结构的关系抽取模型.zip
01-18
基于Biaffine结构的关系抽取模型 ...joint则是直接将二者同时抽取出来,避免pipeline形式的误差累积以及更充分利用实体和关系之间的信息 个人原来做过pipeline形式的抽取,因此这里主要研究一下joint形式的抽取方法。
基于bert关系抽取
07-11
基于bert关系抽取
实体关系抽取pipline方式,使用了BiLSTM+CRF+BERT.zip
01-18
项目说明 项目使用pytorch实现实体关系抽取中的流水线式模型。 命名实体识别部分使用的是BiLSTM+CRF。 实体关系抽取使用的是Bert进行关系分类。 最终的效果比较好。
实体关系提取:基于TensorFlow和BERT的实体和关系提取。基于TensorFlow和BERT的管道式实体及关系撤除,2019年语言与智能技术竞赛信息抽取任务解决方案。
02-06
实体关系提取 基于TensorFlow的实体和关系提取。基于TensorFlow的实体和关系撤消,2019语言与智能技术竞赛信息撤除(实体与关系撤回)任务解决方案。 如果您对信息抽取论文研究感兴趣,可以查看我的博客。 抽象 该代码以管道式的方式处理实体及关系抽取任务,首先使用一个多标签分类模型判断句子的关系种类,然后将句子和可能的关系类型输入序列标注模型中,序列标注模型标注出句子中的实体,最终结合预测的关系和实体输出实体-关系列表:(实体1,关系,实体2)。 该代码以管道方式处理实体和关系提取任务。 首先,使用多标签分类模型来判断句子的关系类型。 然后,将句子和可能的关系类型输入到序列标签模
JointBERT:JointBERT的Pytorch实现
05-05
联合BERT (非官方)Pytorch实施JointBERT : 模型架构 从一个BERT模型(= Joint模型)同时预测intent和slot total_loss = intent_loss + coef * slot_loss(使用--slot_loss_coef选项更改coef) 如果要使用CRF层,请提供--use_crf选项 依存关系 python> = 3.6 火炬== 1.6.0 变压器== 3.0.2 seqeval == 0.0.12 pytorch-crf == 0.7.2 数据集 火车 开发人员 测试 意图标签 插槽标签 信息系统 4,478 500 893 21岁 120 剪断 13,084 700 700 7 72 标签的数量基于火车数据集。 为标签添加UNK (仅在开发和测试数据集中显示的Intent和slot标签) 为
kerasbert:基于tensorflow2.3的BERT实现
03-10
无监督方面提取 基于tensorflow2.3的BERT实现 依存关系 Python3 张量流2.3
基于BERT+Biaffine结构的关系抽取模型源码+文档说明.zip
11-16
基于BERT+Biaffine结构的关系抽取模型源码+文档说明.zip这是95分以上高分必过课程设计项目,下载即用无需修改,确保可以运行。也可作为期末大作业。 基于BERT+Biaffine结构的关系抽取模型源码+文档说明.zip这是95...
BERT模型实体关系抽取实战(医学领域)
a_123zxy的博客
09-27 1万+
BERT实体关系抽取 序言 项目参考了BioBERT、https://github.com/yuanxiaosc/Entity-Relation-Extraction两个BERT应用模型,BioBERT 是一种生物医学语言表示模型,专为生物医学命名实体识别、关系提取、问答等生物医学文本挖掘任务而设计。由于本项目是BERT在生物医学领域的研究与应用,因此使用了BioBERT训练好的模型作为初始模型,在Entity-Relation-Extraction项目上进行微调实现实体关系抽取。 项目部署 环境要求 Py
bert实践:关系抽取解读
热门推荐
爱吃火锅的博客
07-31 4万+
前言 bert模型是谷歌2018年10月底公布的,反响巨大,效果不错,在各大比赛上面出类拔萃,它的提出主要是针对word2vec等模型的不足,在之前的预训练模型(包括word2vec,ELMo等)都会生成词向量,这种类别的预训练模型属于domain transfer。而近一两年提出的ULMFiT,GPT,BERT等都属于模型迁移,说白了BERT 模型是将预训练模型和下游任务模型结合在一起的,核心...
如何用bert进行关系抽取(给定句子和句子中的两个实体,判断这两个实体之间的关系
qq_41898761的博客
05-20 459
目标:给定句子和句子中的两个实体,判断这两个实体之间的关系 来源:关系抽取 代码解读: model.py import torch import torch.nn as nn from transformers import BertModel class SentenceRE(nn.Module): def __init__(self, hparams): super(SentenceRE, self).__init__() self.pretrai
使用bert-bilstm进行实体抽取
04-01
BERT-BiLSTM模型是一种用于实体抽取任务的深度学习模型,它结合了BERT和BiLSTM两种模型的优点,可以有效地提高实体抽取的性能。 下面是BERT-BiLSTM模型的基本流程: 1. 输入层:将文本序列转化为词向量。 2. BERT层:使用预训练的BERT模型对词向量进行编码,得到每个词的上下文表示。 3. BiLSTM层:使用双向LSTM对BERT编码后的特征进行进一步编码,得到每个词的上下文表示。 4. CRF层:使用条件随机场(CRF)对编码后的特征进行分类,得到每个词的实体标签。 5. 输出层:输出每个词的实体标签。 BERT-BiLSTM模型的主要优点是能够充分利用BERT模型的上下文信息,并使用BiLSTM对上下文信息进行进一步编码,提高了实体抽取的准确性。同时,使用CRF层进行分类可以进一步提高模型的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 【AI大咖】再认识Yann LeCun,一个可能是拥有最多中文名的男人 47073
  • 【技术综述】一文道尽传统图像降噪方法 32955
  • 【杂谈】扒一扒Reddit,Medium,Quora与知乎等国内外高质量AI社区与内容平台 32152
  • 【技术综述】最全人脸数据集收录 20578
  • 【AI白身境】计算机视觉都有哪些研究方向 20232

分类专栏

  • 有三AI学院 17篇
  • AI工程师修行之路 40篇
  • 人脸图像 3篇
  • deep learning 64篇
  • 图像处理 18篇
  • C++
  • 开源框架 25篇
  • 深度学习模型 13篇
  • GAN 2篇
  • 杂谈 17篇
  • 目标检测 2篇
  • 开源数据集 1篇
  • 互联网公司 5篇
  • 优化 2篇
  • python 3篇
  • 前后端 2篇
  • 程序员 1篇
  • bug 1篇
  • AI1000问 13篇
  • AI大咖 3篇
  • 图像分割 13篇
  • TensorFlow2.0 1篇
  • 移动端DL框架 1篇
  • AutoML 1篇
  • 知识星球 5篇

最新评论

  • 【GAN优化】最早被用于评价GAN模型的定量指标Inception Score是什么

    诶尔法Alpha: 我想请问一下,现在kl散度的结论看到两种说法,一个是kl散度越大时,p(y|x)的商越小,p(y)的商越大,即质量和多样性都越好;还有一种是kl散度越大代表生成图像的类别分布于整体类别分布越相似,越具有多样性。哪种说法是正确的呢

  • 【杂谈】有三AI所有重要的公开微信群最新汇总,欢迎加入

    weixin_57419513: 怎么进群

  • 清明3天假期限时免费与优惠!涵盖编程基础与框架、CV、NLP与大模型课程等方向~...

    卢杉木: 您好,活动能延长几天吗?刚看到感觉错过了,下一期免费还有吗?

  • 【通知】《深度学习之图像识别(全彩版)》代码和数据已在Github开源,请购买书籍的朋友及时获取!...

    有闲的小孩新子: 是否有电子版书籍可以下载

  • 【项目实战课】从零掌握安卓端Pytorch原生深度学习模型部署

    Afison: 一维信号的神经网络部署检测,博主有方案吗?

大家在看

  • FL Studio怎么破解?FL Studio安装破解使用图文教程 554
  • YoloV8改进策略:卷积篇|Kan行天下之GRAM,KAN遇见Gram多项式 515
  • 快排(霍尔排序实现+前后指针实现)(递归+非递归) 1300
  • (60)ADC接口--->(010)FPGA实现AD7768接口
  • LeetCode 965.单值二叉树

最新文章

  • 【项目实战课】基于TensorRT+YOLOv5的安全帽检测模型部署实战
  • 【通知】大模型内容持续更新,有三AI知识星球618特惠活动开启!
  • 香橙派 Kunpeng Pro:基于ncnn的深度学习模型量化与部署实践
2024年14篇
2023年86篇
2022年149篇
2021年144篇
2020年197篇
2019年357篇
2018年91篇
2017年8篇
2016年2篇
2015年1篇

目录

目录

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

言有三

三人行必有AI

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司大运SEO按天计费荷坳至尊标王大浪百度标王大浪seo优化沙井外贸网站设计大芬seo网站优化坑梓网站建设设计坂田网站建设广州seo网站优化塘坑设计公司网站西乡如何制作网站宝安seo宝安百度关键词包年推广丹竹头优化宝安网站改版观澜设计公司网站福永网站建设龙岗外贸网站制作永湖推广网站丹竹头网站优化按天收费惠州百度爱采购西乡网站搜索优化松岗百度竞价盐田网站改版石岩设计公司网站宝安网站排名优化横岗英文网站建设大鹏网站关键词优化东莞网站搜索优化吉祥seo网站优化歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化