本发明涉及语言处理领域,尤其涉及一种文本纠错方法和系统。
背景技术:
现有文本纠错方法主要分为统计模型类和神经网络模型类。基于统计模型的方法以n-gram为例,通过计算句子中以目标字为核心的邻接n元概率,对目标字进行检错判断,同时对混淆集进行排序,筛选出第一候选字词纠正错误文本。基于神经网络模型的方法以seq2seq模型为例,通过将句子输入encoder,经过模型计算后,在decoder会输出句子中每个位置上置信度得分top1的字符,从而进行纠错。
上述现有技术具有以下缺点:(1)统计模型只考虑了单字构成词语的概率,且这个概率依赖于训练的样本,泛化能力受到限制。同时统计模型并没有考虑上下文的语义信息,无法解决搭配不当的错误。(2)神经网络模型只根据上下文语义信息纠错,未考虑具体任务场景,比如语音转文本时,错误大量集中在同音字;图像转文本时,错误大量集中在同形字。同时当前seq2seq模型依赖大量人工标注的平行语料以提高泛化能力。
技术实现要素:
本发明针对现有技术中的缺点,通过使用bert解决现有技术方案中缺乏大量训练语料的问题,并利用新型汉字编码方式,综合考虑汉字的拼字字形对错误文本的影响,动态适应多种纠错任务。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
一种文本纠错方法,包括以下步骤:
训练bert模型;
将待检测句子输入bert模型,获得每个位置上的置信度topk候选集;
对汉字进行编码,基于汉字编码,计算候选集中的候选项与原项的相似度;
利用相似度与置信度综合计算纠错概率;
对候选集按照纠错概率重新排序;
与设定阈值比较,若概率低于阈值,则不改错;若否,则取出候选集中top1作为纠错结果。
可选的,对汉字进行笔画级的拆解,并与拼音结合形成新的汉字编码。
可选的,汉字编码分为拼音字段、音调字段、结构字段、笔画字段和笔画总数字段。
可选的,基于汉字编码,使用levenshtein算法计算候选项与原项的相似度。
可选的,设置置信度和相似度的权重,将相似度和置信度各自乘上相应的权重,然后求和,得到纠错概率。
可选的,训练bert模型过程:bert对输入序列中的随机比例的字进行mask处理,利用mask的上下文信息预测mask的值,bert模型得到的结果形式为(字,置信度)的候选项,选择置信度最高的作为mask的结果;
注,“()”内文字非解释说明。
本发明还提供了一种文本纠错系统,包括:
汉字编码单元,用于汉字编码处理;
bert模型单元,用于bert模型训练;
置信度计算单元,利用bert模型单元训练好的bert模型,获得待检测句子每个位置上的置信度topk候选集;
相似度计算单元,利用汉字编码单元得到的汉字编码,计算置信度topk候选集中的候选项与原项的相似度;
概率计算单元,根据相似度和置信度计算纠错概率,依据纠错概率并重新排序;
判断单元,判断纠错概率是否大于阈值,若小于,则放弃纠错,若大于,选取top1作为纠错结果;
输出单元,用于输出纠错结果。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法中的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法中的步骤。
本发明的有益效果:
1、本发明采用bert模型,由于bert模型本身是在大量文本语料上训练的通用“语言理解”模型,只需要通过简单地微调该预训练模型,利用少量训练样本,就能运用到当前的纠错任务中。
2、本发明利用bert模型得到句子中每个位置的置信度topk候选项后,利用汉字编码计算候选项与原项的相似度,该相似度综合考虑了汉字的拼音与结构信息。最后利用相似度与置信度结合计算出候选项的综合概率,利用该概率重排序选出最终的top1。充分考虑了同音字、同形字的纠错问题。
3、由于汉字的象形文字结构特殊性,如果只通过拼音的字母计算,无法得出准确的相似性,例如日(ri)、目(mu)。而常见的汉字编码如四角编码存在同一编码对应多个汉字,但汉字结构缺大相径庭的情况,比如“有”、“内”“希”的四角编码都是40227。所以四角编码也无法描绘汉字的结构信息。
本发明对汉字进行笔画级的拆解,并与拼音结合形成新的汉字编码,利用该汉字编码进一步筛选出符合条件的候选集,然后通过levenshtein算法计算筛选后的候选项与原项的相似度,大大提高了纠错概率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本实施例纠错方法的流程图;
图2是汉字编码示意图;
图3是bert模型训练流程图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
一种文本纠错方法,包括以下步骤:
训练bert模型;
将待检测句子输入bert模型,获得每个位置上的置信度topk候选集;
对汉字进行编码,基于汉字编码,计算候选集中的候选项与原项的相似度;
利用相似度与置信度综合计算纠错概率;
对候选集按照纠错概率重新排序;
与设定阈值比较,若概率低于阈值,则不改错;若否,则取出候选集中top1作为纠错结果。
如图1,基本流程为:
(1)使用少量标注语料微调bert模型;
具体训练过程说明:bert模型对输入序列中的随机15%的字进行mask处理,利用mask的上下文信息来预测mask的值。需要尽可能选择错误的字来作为maskedtoken。
以样本“1干山鸟飞绝千山鸟飞绝”为例,其中“1”表示错误个数,后面两个句子为错误序列和正确序列。如图3所示,选中“千”的位置,遮住“千”作为训练样本;在多份这样的训练样本中,其中80%用mask代替:[mask]山鸟飞绝;10%用正确字代替:千山鸟飞绝;10%用错误和随机字代替:干山鸟飞绝。最后预测mask的值。
模型得到的结果形式为(字,置信度)的候选项。选择置信度最高的作为mask的结果。
(2)将检测的句子输入(1)的模型,获得每个位置上的置信度topk候选集;
预测过程说明:当微调好bert模型后,在预测过程,输入待检测的句子,模型自动为句子中每个位置计算出置信度topk的候选项。以“千山鸟飞绝,万静(径)人踪灭”为例,令k=5。
如下所述的“预测结果范例”,模型预测出的候选项可能会受训练过程中其它相似样本的干扰,而预测出与当前句子语义并不相关的结果。虽然正确选项“径”出现在了候选集中,但是会出现算出的置信度分值很低的情况:"径":0.042488109320402145。如果只在此基础上筛选top1,则无法得出正确结果。
所以需要通过后续(3)的操作进行重排序。
(3)对常用7000个汉字按图2方式进行编码,对汉字进行笔画级的拆解,并与拼音结合形成新的汉字编码。图中以“有”字为例解释编码格式,依次分为拼音字段、音调字段、结构字段、笔画字段和笔画总数字段。基于此新型编码,使用levenshtein算法计算topk候选集中候选项与原项的相似度。
其中levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,操作包括一切使用的手段将一个字符串转换成另一个字符串,比如插入一个字符、删除一个字符等等;操作次数越少,说明两个字符串距离levenshteindistance越小,表示两个字符串越相似。
本实施例中以汉字编码的每一位作为操作字符,进行相似度计算。以下述“预测结果范例”为例,通过汉字编码使用levenshtein算法计算候选项与原项“静”的相似度。下述的“similarity”字段便是最终“径”与“静”的相似度。
预测结果范例:
(4)将(3)中相似度与(2)中的置信度各自乘上相应权重,然后求和得到纠错概率。
在这一步中,权重可以自行调节,分别表示对置信度和相似度的偏重程度。这里我们设置置信度权重=0.6,相似度权重=0.4。图中“prob”字段便是最后计算出的纠错概率即该不该用候选项替换原项的概率,上述“prob”和“similarity”都是最终候选项的结果。本实施例仅仅对候选集中其中一个候选项进行说明,其余候选项不做赘述。
(5)对候选集按纠错概率从大到小排序重排序。其中,汉字编码起到了修正模型误差的效果。相比于只使用bert模型纠错,添加了汉字编码的方案更加具有泛化性。
(6)设定阈值范围,与设定的阈值比较,如果概率低于阈值,则不改错;高于阈值则取出候选集中top1作为最终纠错结果。
本发明还提供了一种文本纠错系统,包括:
汉字编码单元,用于汉字编码处理;
bert模型单元,用于bert模型训练;
置信度计算单元,利用bert模型单元训练好的bert模型,获得待检测句子每个位置上的置信度topk候选集;
相似度计算单元,利用汉字编码单元得到的汉字编码,计算置信度topk候选集中的候选项与原项的相似度;
概率计算单元,根据相似度和置信度计算纠错概率,依据纠错概率并重新排序;
判断单元,判断纠错概率是否大于阈值,若小于,则放弃纠错,若大于,选取top1作为纠错结果;
输出单元,用于输出纠错结果。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法中的步骤。所述电子设备可以是电子阅读设备、文本纠错设备等可以实现文本纠错功能的电子设备。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法中的步骤。
此外,需要说明的是,本说明书中所描述的具体实施例,其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化,均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
深圳SEO优化公司保山百搜标王多少钱赤峰网络营销阜阳百搜标王哪家好上海营销网站价格宝安网络营销哪家好德宏seo公司阜阳模板网站建设哪家好抚州网站关键词优化公司清徐模板制作吉安网站优化按天计费宿迁关键词排名报价SEO按天扣费哪家好宁德百度关键词包年推广哪家好十堰百搜标王公司宁德营销型网站建设报价四平建站哪家好横岗百姓网标王推荐龙岗百度网站优化排名报价吉林网站开发公司百色网站制作多少钱清远百度标王多少钱荆门SEO按天计费公司忻州阿里店铺运营推荐恩施网站优化按天收费公司武威网站设计模板价格黑河百度爱采购报价沙井网站推广系统多少钱大芬网站建设设计承德SEO按效果付费价格果洛网站建设设计歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运