一种基于自适应热词权重的语音识别方法及系统与流程

文档序号:21312689发布日期:2020-06-30 20:39阅读:835来源:国知局
导航: X技术> 最新专利> 乐器;声学设备的制造及制作,分析技术
一种基于自适应热词权重的语音识别方法及系统与流程

本发明涉及语音识别领域,特别涉及一种基于自适应热词权重的语音识别方法及系统。



背景技术:

语音识别中的热词识别是指根据用户提供的热词,使得识别结果中热词的召回率显著提升的识别方法。

由于语音识别在不同的应用场景中存在领域相关的热词,用户希望这些热词能识别正确。然而,传统的热词识别方法在很少采用一遍解码的方式提升识别结果中热词的召回率,而且很少参照系统原先语言模型的信息,对热词权重的计算不够科学。



技术实现要素:

本发明的目的在于克服上述缺陷,提出一种基于自适应热词权重的语音识别方法,该方法接收用户自定义的热词以及对每个热词设置的权重;对热词表进行预处理;由热词表构造一个热词网络;将热词网络加载到语音识别的解码器中;解码时,根据静态解码网络和热词网络自适应地计算路径得分;解码结束时,包含热词的路径获得比原先更高的分数,与热词无关的路径得分不发生变化。

为了实现上述目的,本发明提出了一种基于自适应热词权重的语音识别方法,所述方法包括:

生成热词网络并和静态解码网络一起加载到语音识别解码器中;

将待识别的语音信号同步地在静态解码网络和热词网络上进行令牌传递,自适应地计算热词权重,并对静态解码网络上令牌的分数重新打分;输出解码结果。

作为上述方法的一种改进,所述生成热词网络的步骤包括:

步骤1)接收自定义的热词以及对每个热词设置的权重;

步骤2)对步骤1)得到的热词表进行预处理;

步骤3)基于步骤2)的热词表构造一个热词相关的加权有限状态转换机,即为热词网络。

作为上述方法的一种改进,所述自定义的热词为集内词、集外词或者短语;所述权重为浮点数,权重与该热词在识别结果中的召回率成正相关。

作为上述方法的一种改进,所述步骤2)具体为:当热词包含中文时,对该热词使用词汇表进行分词,确保每一条热词由一个或多个集内词构成;分词采用逆向最大匹配算法。

作为上述方法的一种改进,所述热词相关的加权有限状态转换机网络表示为定义在一组权重上的八元组(∑,δ,q,i,f,e,λ,ρ);其中∑是输入符号的有限集合,δ是输出符号的有限集合,q是有限状态的集合,是起始状态集合,是终止状态集合,是有限转移边的集合,其中∈代表转移边上的输入或输出符号为空字符;λ和ρ分别表示起始权重和终止权重;

所述热词网络包括以下特性:

(1)∑和δ均为词汇表构成的集合,包含起始符和终止符;

(2)输入字符串和输出字符串相同;

(3)i和f均只有一个状态元素;

(4)能够接受任意的以起始符开始、终止符终止的字符串,因此起始状态有唯一出边,输入和输出字符为起始符,终止状态有唯一入边,输入和输出字符为终止符;

(5)当输入字符串中包含热词表中的一个或多个词条,路径上累计的权重之和等于用户定义的热词权重之和,否则路径上累计的权重之和为零;

(6)热词为集外词或短语时,对应网络中的一条长度大于1的路径,该路径每条转移边上的权重等于用户定义热词的权重除以热词的字符串长度;

(7)当无法继续在长度大于1的热词的路径上转移时,将会通过空字符转移边实现状态转移,并减去此前累计的热词权重;

(8)λ和ρ均为零。

作为上述方法的一种改进,所述静态解码网络为加权有限状态转换机,包含声学模型、词典和语言模型信息,其输入符号集合是声学模型中hmm隐藏状态的集合,输出符号集合是词汇表;静态解码网络的输出符号集合与热词网络的输入符号集合相同。

作为上述方法的一种改进,所述同步地在静态解码网络和热词网络上进行令牌传递的步骤具体包括:

步骤s1)初始化静态解码网络上的令牌ts,从静态解码网络的起始状态开始传递;

步骤s2)初始化热词网络上的令牌th,构成令牌集合t,并链接到静态解码网络上初始化的令牌ts,th从热词网络的起始状态开始传递;

步骤s3)向静态解码网络输入一帧待识别语音的特征,其上的令牌ts传递到下一个状态,记经过的转移边为es,输出字符s,累计路径上的得分;

步骤s4)判断是否传递到终止状态,若传递到终止状态,转入步骤s8);否则,转入步骤s5)继续执行;

步骤s5)判断输出字符s是否为空字符;若s是空字符,转入步骤s3);否则转入步骤s6)继续执行;

步骤s6)向热词网络输入字符s,更新ts链接的令牌集合t:t中的每个令牌th传递到满足条件的一个或多个状态,记经过的转移边为eh,分别计算路径得分的增量δ,采用公式:

公式中的wh(eh)和ws(es)分别为eh和es上的权重,有三种情况:

(1)wh(eh)>0,代表eh与热词有关,wh(eh)等于自定义热词的权重除以热词的字符串长度,权重越高δ越大;ws(es)为语言模型中的对数概率,ws(es)为负值,α是非负参数,因此热词网络输入的字符在语言模型中概率越小δ越大;

(2)wh(eh)<0,代表eh为空字符转移边,无法继续在热词相关的路径上传递,需要减去先前累计的权重值w;

(3)wh(eh)=0,代表eh与热词无关,因此得分增量为零。

步骤s7)更新ts的得分,其得分增量为令牌集合t中得分增量的最大值;更新结束后,转入步骤s3);

步骤s8)结束令牌传递并输出字符串以及对应的分数作为解码结果。

一种基于自适应热词权重的语音识别系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求上述方法的步骤。

本发明的优点在于:

本发明的基于自适应热词权重的语音识别方法在一遍解码的过程中就能提升热词召回率,不影响解码的速度,并且自适应地计算热词权重既能有效地提高热词的召回率,不影响原先的解码速度,又能提高系统的鲁棒性。

附图说明

图1为本发明的基于自适应热词权重的语音识别方法的流程图;

图2为本发明的令牌传递的过程的流程图。

具体实施方式

下面结合附图对本发明作进一步的描述。

参考图1,本发明提出的一种基于自适应权重的热词识别方法,包括以下步骤:

步骤101)接收用户自定义的热词以及对每个热词设置的权重;

用户自定义的热词包括集内词、集外词或者短语等用户期望能识别正确的字符串;热词的权重为浮点数,权重越高代表用户期望该字符串在识别结果中的召回率越高。

步骤102)对步骤101)热词表进行预处理;

所述的对热词表进行预处理包括:热词包含中文时,则需要对该热词使用语音识别系统中的词汇表分词,确保每一条热词由一个或多个集内词构成;分词可以采用逆向最大匹配算法。

步骤103)基于步骤102)的热词表构造一个热词相关的加权有限状态转换机,简称热词网络;

热词相关的加权有限状态转换机网络可以表示为定义在一组权重上的八元组(∑,δ,q,i,f,e,λ,ρ);其中∑是输入符号的有限集合,δ是输出符号的有限集合,q是有限状态的集合,是起始状态集合,是终止状态集合,是有限转移边的集合,其中∈代表转移边上的输入或输出符号为空字符;λ和ρ分别表示起始权重和终止权重,热词网络的具体性质进一步包括:

(1)∑和δ均为词汇表构成的集合,包含起始符和终止符;

(2)转移边的输入字符与输出字符相同,因此热词网络的输入字符串和输出字符串相同;

(3)i和f均只有一个状态元素;

(4)热词网络可以接受任意的以起始符开始、终止符终止的字符串,因此起始状态有唯一出边,输入和输出字符为起始符,终止状态有唯一入边,输入和输出字符为终止符;

(5)当输入字符串中包含热词表中的一个或多个词条,路径上累计的权重之和等于用户定义的热词权重之和,否则路径上累计的权重之和为零;

(6)热词为集外词或短语时,对应网络中的一条长度大于1的路径,该路径每条转移边上的权重等于用户定义热词的权重除以热词的字符串长度;

(7)当无法继续在长度大于1的热词的路径上转移时,将会通过空字符转移边实现状态转移,并减去此前累计的热词权重;

(8)λ和ρ均为零。

步骤104)保留解码器中的静态解码网络不变,将步骤103)的热词网络加载到语音识别的解码器中;

静态解码网络为加权有限状态转换机,包含声学模型、词典、语言模型的信息,输入符号集合是声学模型中hmm隐藏状态的集合,输出符号集合是词汇表;静态解码网络的输出符号集合与热词网络的输入符号集合相同,因此静态解码网络的输出字符串可以被热词网络接受。

步骤105)同步地在静态解码网络和热词网络上进行令牌传递,自适应地计算热词权重,并对静态解码网络上令牌的分数重新打分;

令牌传递的过程参考图2,具体实施步骤如下:

步骤105-1)、初始化静态解码网络上的令牌ts,从静态解码网络的起始状态开始传递;

步骤105-2)、初始化热词网络上的令牌th,构成令牌集合t,并链接到静态解码网络上初始化的令牌ts,th从热词网络的起始状态开始传递;

步骤105-3)、向静态解码网络输入一帧语音的特征,其上的令牌ts传递到下一个状态,记经过的转移边为es,输出字符s,累计路径上的得分;

步骤105-4)、判断是否传递到终止状态,若传递到终止状态,转入步骤105-8);否则,转入步骤105-5)继续执行;

步骤105-5)、判断输出字符s是否为空字符;若s是空字符,转入步骤105-3);否则转入步骤105-6)继续执行;

步骤105-6)、向热词网络输入字符s,更新ts链接的令牌集合t:t中的每个令牌th传递到满足条件的一个或多个状态,记经过的转移边为eh,分别计算路径得分的增量δ,采用公式:

步骤105-7)、更新ts的得分,其得分增量为令牌集合t中得分增量的最大值;更新结束后,转入步骤105-3);

步骤105-8)、结束令牌传递并输出字符串以及对应的分数。

公式中的wh(eh)和ws(es)分别为eh和es上的权重,进一步有三种情况:

(1)wh(eh)>0,代表eh与热词有关,wh(eh)等于用户定义热词的权重除以热词的字符串长度,用户定义的权重越高δ越大;ws(es)为语言模型中的对数概率,ws(es)为负值,α是非负参数,因此热词网络输入的字符在语言模型中概率越小δ越大;

(2)wh(eh)<0,代表eh为空字符转移边,无法继续在热词相关的路径上传递,需要减去先前累计的权重值w;

(3)wh(eh)=0,代表eh与热词无关,因此得分增量为零。

热词权重自适应体现在计算热词网络路径得分增量时参考了原始系统中语言模型的信息,能有效地增加热词的召回率。

步骤106)、解码结束后,包含热词的路径获得比原先更高的分数,不包含热词的路径分数不发生变化;

包含热词的路径与原系统相比,提升的得分来自于两部分,其中一部分来源于用户自定义的权重,反映用户对识别结果中出现热词的期望值,另一部分来源于系统中语言模型,若热词在语言模型中是稀疏的,则获得更高的权重,反之获得较低的权重。

最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种语音识别数据扩充方法与系...
  • 生成语音模型和语音识别的方法...
  • 语音识别模型的训练方法、装置...
  • 语音唤醒模型的生成方法、装置...
  • 一种个性化词库的更新方法、装...
  • 语音唤醒方法及装置、处理器、...
  • 数据标注准确度验证方法、装置...
  • 词汇音素表构建方法、装置、设...
  • 基于PSO卷积核优化稀疏迁移...
  • 语音识别方法以及用户终端与流...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

深圳SEO优化公司和县建设网站报价光明建设网站公司百色百度网站优化推荐沧州网络广告推广价格丹东如何制作网站报价苏州百度seo公司荆州百度爱采购公司广安SEO按天收费推荐淮南网站定制开封企业网站设计公司罗湖网站推广系统哪家好四平至尊标王哪家好毕节百姓网标王推广日照百度网站优化排名报价南山网站优化排名公司上海阿里店铺运营报价邢台seo网站优化推荐阜阳网站制作哪家好广东优化多少钱威海网站搜索优化价格潮州外贸网站设计普洱网站推广系统哪家好安顺网站搭建报价绥化百度爱采购报价忻州网站建设设计公司安阳推广网站报价普洱百姓网标王推荐延安网站优化推广陇南网站seo优化报价陇南品牌网站设计推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化