本发明涉及一种基于cnn+blstm+crf的老挝语复杂人名地名实体识别方法,属于自然语言处理中小语种识别领域。
背景技术:
命名实体识别作为自然语言处理的一个重要基础任务,目前学术上主要以神经网络和传统的统计机器学习方法结合作为训练模型。对比传统的基于规则的命名实体识别方法具有更好的泛化能力,对比机器学习,神经网络具有更强大的计算能力和特征提取能力。本发明使用cnn+blstm+crf三种模型融合相对比目前主流的命名实体模型bsltm(双向长短时记忆模型)+crf(条件随机场),添加的cnn卷积神经网络因为其网络结构中的卷积层和池化层,对局部特征提取的较大的增强。但在老挝语命名实体领域仍然存在问题,相较与中文和英文的命名实体识别,老挝语命名实体识别有以下几个问题:(1)人工标注语料不充足,语料爬取困难,数据预处理难度较大。(2)国内对老挝语方向研究的内容较少,可吸取借鉴的不多。(3)老挝语的构词规则研究相对较少。正因为存在小语种的特有的语言学特征融合的问题,所以在使用最新模型的基础上,融合了多条老挝语语言学的特征,整体了多条老挝语复杂人名地名的构词规则,将其融合到crf算法中,有效的提高了对老挝语命名实体识别的准确率。
技术实现要素:
本发明要解决的技术方案是提供一种基于cnn+blstm+crf的老挝语复杂人名地名实体识别方法,用于解决老挝语复杂人名地名识别的准确率不高等问题。
本发明的技术方案是:基于cnn+blstm+crf的老挝语复杂人名地名实体识别方法方法,其特征在于:包括以下步骤:
step1,将老挝语命名实体语料预处理后进行数据集划分,训练集占90%,测试集占10%;
step2,将老挝语句子分词后每个词语的单个字符作为输入,通过cnn输出字符级特征向量;
step3,将老挝语句子分词后作为输入,通过blstm模型输出具有上文语义的词向量;
step4,将字符级向量和词向量拼接成特征向量;
step5,将老挝语复杂人名地名的多条构词特征融合到crf算法中;
step6,将step4得到的完整特征向量输入到step5得到的crf优化模型进行老挝语人名地名实体词识别训练。
具体地,所述步骤step2具体步骤如下:
step2.1:建立cnn模型:使用google的tensorflowgpu深度学习框架,版本为1.12,使用python3程序语言进行cnn算法的编写;
step2.2:设置模型超参数:设置迭代次数为20000次,学习率设置为0.1、0.01、0.001三种,使用网格搜索的方式选择学习率;
step2.3:训练字符级向量:将老挝语词语进行字符切分,输入到已经建立好的cnn模型中进行训练。
具体地,所述步骤step3具体步骤如下:
step3.1:老挝语分词:通过老挝语分词工具,将完整的老挝语句子作为输入,输出为老挝语词语;
step3.2:去除停用词:将老挝语停用词作成一个词典,将step3.1得到老挝语词语进行筛选;
step3.3:训练老挝语词向量:将step3.2中的去除停用词的老挝语作为word2vec模型的输入,输出的词向量作为blstm模型的输入,并且对其进行训练,最终输出具有上下文特征信息的老挝语词向量。
具体地,所述步骤step4具体步骤如下:
step4.1:安装科学计算模块:通过python安装numpy科学计数模块,进行特征向量的矩阵运算;
step4.2:安装数据处理模块:通过python安装pandas数据处理模块,进行老挝语数据的导入和分析;
step4.3:特征向量组合:将步骤step2中通过cnn训练的字符级特征向量矩阵维度设置为固定值,将步骤step3中通过blstm训练的具有上下文语义特征的词向量矩阵维度设置的和step2一致,使用加载的numpy科学计数模块,进行运算,将两组特征向量进行拼接组合成一组特征向量。
具体地,所述步骤step5具体步骤如下:
step5.1:整理老挝语语言学特征:老挝人名字前面有冠词,老挝语地名前有指示词,老挝语复杂人名地名拥有特定的前缀和后缀;
step5.2:将整理的老挝语语言学特征融合到crf算法中,用来提升对老挝语命名实体识别的准确率。
具体地,所述步骤step6具体步骤如下:
step6.1:识别老挝语人名地名:将step4中拼接成的完整特征向量作为输入,step5融合老挝语语言学特征的crf(条件随机场)算法作为输出层算法。实现了最终的基于cnn+blstm+crf模型融合老挝语复杂人名地名实体识别方法。
具体地,所述步骤step1中的预处理指使用老挝语分词工具进行处理,老挝语分词工具使用java程序编程语言编写,通过词典搜索的方式进行老挝语分词。
本发明的有益效果是:
(1)该基于cnn+blstm+crf的老挝语复杂人名地名实体识别方法中,相对比blstm+crf算法模型在老挝语复杂人名地名的识别精度有明显的提高。
(2)该基于cnn+blstm+crf的老挝语复杂人名地名实体识别方法中,使用了cnn(卷积神经网络)进行了局部特征提取,相比较其他算法,在特征提取的效果上有了比较不错的提高。
(3)该基于cnn+blstm+crf的老挝语复杂人名地名实体识别方法中,只需要融合少量复杂人名地名最具有特征的构词方法,其他词语内部特征通过深度学习可以自动识别出来,相比于人工识别,速度更快,泛化性更强。
附图说明
图1为本发明中的流程图
具体实施方式
下面结合附图和具体实施例,对本发明做进一步的说明。
实施例1:如图1所示,基于cnn+blstm+crf的老挝语复杂人名地名实体识别方法,具体步骤如下:
step1,获取老挝语复杂人名地名命名实体语料,进行预训练操作。所述步骤step1,数据通过老挝语留学生手动标注语料,训练集的比例为90%,测试集的比例为10%。50000个老挝语词语,将45000个老挝语词语做训练集,5000个词语做测试集。所述步骤step1中的预处理指使用现有的老挝语分词工具进行处理,老挝语分词工具使用java程序编程语言编写,通过词典搜索的方式进行老挝语分词。这个预处理的内容是现有技术中常用的技术手段,因此不再详细说明。
step2,将老挝语句子分词后每个词语的单个字符作为输入,通过cnn输出字符级特征向量。所述步骤step2,将step1预训练好的词词语每个字符输入到cnn来训练,在cnn训练前设置学习率、步长等一系列超参数。将迭代次数设置为20000,学习率设置为0.1,0.01.0.001三种,通过最后在训练集上体现的准确率,选择合适的学习率,cnn使用梯度下降算法进行参数的求解,下面为梯度下降算法的公式:
上面公式中θi为参数向量,α为学习率,j(θ)为代价函数,
step3,将老挝语句子分词后作为输入,通过blstm模型输出具有上文语义的词向量。所述步骤step3,安装tenserflow深度学习框架,此框架为google开发,运行速度稳定,使用blstm算法,将分好词的老挝语训练集输入到blstm算法中,设置blstm部分超参数,最后输出老挝语具有语义特征的词向量。
step4,将字符级向量和词向量拼接成特征向量。所述步骤step4、step2训练的字符级特征向量和step3中训练的词向量拼接成组合向量。
step5,将老挝语人名地名多特征融合成crf规则。所述步骤step5具体为:安装crf运行环境,将老挝语复杂人名地名语言学特征编写成crf可识别规则,形成融合老挝语语言学特征的优化crf模型,crf计算公式为:
上面的式子t为转移矩阵,用于刻画相邻分数的依赖转移关系,y1,…yt…,ym代表词的一系列标签,st代表得分向量,m表示词语的个数,b表示开始句子的代价向量。在crf层中应用softmax激活函数,将概率分布计算出来,式子如下:
z表示概率分布统计,最后,序列概率计算的式子如下:
上式中p代表序列概率的值。
step6,将完整的特征向量作为模型输入到融合了多特征的crf模型中,进行老挝语复杂人名地名实体词识别训练。具体为:将step4中组合的特征向量输入到step5融合了老挝语语言学特征的crf模型中,完成最终的老挝语复杂人名地名的识别。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
深圳SEO优化公司南宁百搜标王推荐营销网站多少钱淮南高端网站设计哪家好鄂州品牌网站设计公司晋中百度竞价推荐张家界网站seo优化泰州英文网站建设公司重庆关键词按天扣费烟台如何制作网站报价衡阳企业网站设计多少钱衡阳百度竞价包年推广公司坪地网站优化推广推荐黄山网站优化推广公司宜昌网站搭建公司德州网站设计模板价格固原百度seo公司衢州百度爱采购公司喀什优化哪家好安阳高端网站设计报价威海网站排名优化多少钱张家口SEO按天扣费报价莱芜百姓网标王玉树网页制作价格包头企业网站改版哪家好恩施网站定制公司惠州优秀网站设计公司廊坊高端网站设计报价宁德网站改版报价怒江网站优化推广哪家好垦利网络营销价格歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运