语音关键词识别方法、系统、设备及存储介质与流程

文档序号：28218641发布日期：2021-12-28 23:16阅读：222来源：国知局

导航： X技术> 最新专利> 乐器;声学设备的制造及制作,分析技术

1.本发明涉及数据处理技术领域，尤其涉及一种语音关键词识别方法、系统、设备及存储介质。

背景技术：

2.语音关键词识别是智能语音系统的核心技术，可以应用于智能语音系统中的实时对话系统、命令控制功能、语音拨号功能、语音监听功能等，是语音设备智能控制的重要组成部分。一般来说，在智能语音系统中应用时，关键词是固定的，内存占用低，计算复杂度低，功耗低，准确率高。
3.语音关键词识别可以实现对网络中的媒体，例如网上电视、音视频等的音频信息进行实时检索、审查和有效监控，对各种数字音频产品的版权保护，如音乐的版权保护，即搜索未经授权的使用等。
4.语音关键词识别在音频信息分类与统计技术的研究中也扮演着重要的角色，如在广播电视新闻节目、数字图书馆等内容中包含着大量的语音、音乐等信息，使用音频信息检索技术可以有效地对这些信息进行分类、统计与检索，更好地管理、存储与高效利用这些资源。此外，它还可应用于网络管理、信息安全以及军事刑侦等诸多领域。
5.将语音关键词识别应用在网络中的媒体或者音频信息分类与统计领域中时，关键词的数量可能会很多，如果采用机器学习模型和深度学习模型来进行识别，则需要大量的训练样本进行训练，并且对内存占用率高，计算复杂度高，具有很好的功耗。同时，由于音频内容的多样性，语音关键词识别的准确率也难以保证。

技术实现要素：

6.针对现有技术中的问题，本发明的目的在于提供一种语音关键词识别方法、系统、设备及存储介质，降低了语音关键词识别的算法复杂度，并且提高了语音关键词识别的准确率。
7.本发明实施例提供一种语音关键词识别方法，包括训练部分和识别部分，所述训练部分包括如下步骤：
8.建立训练数据库，所述训练数据库包括多个关键词的样本音频；
9.将各个样本音频分为多个样本音频段；
10.提取各个样本音频段的特征向量，将所述特征向量按照图像分类训练算法的输入数据要求制作成输入训练算法的特征矩阵；
11.基于所述输入训练算法的特征矩阵进行模型训练，存储训练好的关键词识别模型；
12.所述识别部分包括如下步骤：
13.采集待识别音频，分为多个待识别音频段，提取各个待识别音频段的特征向量；
14.将待识别的特征向量制作成适合输入所述关键词识别模型的特征矩阵，输入训练
好的关键词识别模型，得到各个待识别音频段的标签；
15.统计待识别音频中各个待识别音频段的标签，将数量最多的标签作为待识别音频的关键词标签。
16.本发明的语音关键词识别方法，在训练过程中，首先采集样本音频，然后将样本音频划分为多个样本音频段，然后提取样本音频段并且处理成符合训练算法要求的特征矩阵，来进行模型训练，把通常用于图像分类的算法用到语音上，而且是保留音频数据，构造数据格式，然后直接输入算法。关键词识别模型可以采用少量的样本进行训练，训练时间短，基于小数据量训练，也能达到好的识别结果。
17.在识别过程中，首先采集待识别音频并分为多个待识别音频段，然后分别对每个待识别音频段进行特征提取，并将得到的每个待识别音频段的特征向量组合得到特征矩阵，采用关键词识别模型得到每个待识别音频段的关键词标签，并对所有待识别音频段的关键词标签的统计，将数量最多的关键词标签作为整体待识别音频的关键词标签，识别方式简单，大大提高了语音关键词识别的准确率，算法复杂度低，识别推理时间短。
18.在一些实施例中，所述训练算法为xgboost。
19.在一些实施例中，将各个样本音频分为多个样本音频段，包括将各个样本音频分为短时音频段、中时音频段和长时音频段中的至少一种；
20.将待识别音频分为多个待识别音频段，包括将各个待识别音频分为短时音频段、中时音频段和长时音频段中的至少一种；
21.其中，短时音频段、中时音频段和长时音频段分别为包括a1个帧的音频段、包括a2个帧的音频段和包括a3个帧的音频段，a1<a2<a3。
22.在一些实施例中，所述提取各个待识别音频段的特征向量，包括如下步骤：
23.判断需要的特征向量的类别；
24.如果需要短时特征向量，则基于预设的语音特征提取算法提取待识别音频段的短时特征向量；
25.如果需要中时或长时特征向量，则获取待识别音频段中所包含的各个短时音频段的特征向量，基于预设的特征统计算法获取待识别音频段的中时或长时特征向量。
26.在一些实施例中，将特征矩阵数据按照图像分类训练算法的输入数据要求制作成输入训练算法的特征矩阵，包括如下步骤：
27.提取所有样本音频的各个样本音频段的特征向量，在特征向量中，最后一列或者最后一行，添加该样本音频段的关键词标签，将所有样本音频的各个样本音频段的特征向量组合得到特征矩阵。
28.在一些实施例中，将所有样本音频的各个样本音频段的特征向量组合得到特征矩阵，包括如下步骤：
29.将每个样本音频段的特征向量作为特征矩阵中的一行；
30.利用随机数种子生成器，将所有特征向量所在特征矩阵中的行顺序打乱，得到所有特征向量的更新行顺序；
31.基于所有特征向量的更新行顺序，然后将所有特征向量组合得到最终的特征矩阵，输入到xgboost训练算法。
32.在一些实施例中，所述建立训练数据库之后，还包括如下步骤：
33.判断所述样本音频的时长是否小于预设时长阈值；
34.如果是，则将所述样本音频重复特定次数，得到新的样本音频，利用所述新的样本音频替代重复特定次数之前的样本音频。
35.本发明实施例还提供一种语音关键词识别系统，应用于所述的语音关键词识别方法，所述系统包括：
36.音频分段模块，用于建立训练数据库，所述训练数据库包括多个关键词的样本音频，将各个样本音频分为多个样本音频段，以及采集待识别音频，分为多个待识别音频段；
37.特征提取模块，用于提取各个样本音频段的特征向量，将所述特征向量按照图像分类训练算法的输入数据要求制作成输入训练算法的特征矩阵；以及提取各个待识别音频段的特征向量，将待识别的特征向量制作成适合输入所述关键词识别模型的特征矩阵；
38.模型训练模块，用于基于所述输入训练算法的特征矩阵进行模型训练，存储训练好的关键词识别模型；
39.音频识别模块，用于将待识别的特征矩阵输入训练好的关键词识别模型，得到各个待识别音频段的标签，以及统计待识别音频中各个待识别音频段的标签，将数量最多的标签作为待识别音频的关键词标签。
40.本发明的语音关键词识别系统，在训练过程中，首先通过音频分段模块采集样本音频，将样本音频划分为多个样本音频段，然后通过特征提取模块提取样本音频段并且处理成符合训练算法要求的特征矩阵，通过模型训练模块来进行模型训练，在特征提取模块和模型训练模块中，把通常用于图像分类的算法用到语音上，而且是保留音频数据，构造数据格式，然后直接输入算法。关键词识别模型可以采用少量的样本进行训练，训练时间短，基于小数据量训练，也能达到好的识别结果。本发明做了一次尝试，把通常用于图像处理的算法用于语音处理，而且不是将语音生成语谱图，然后作为一个图像，再用图像算法。而是直接从语音音频文件，提取语音特征值等有效表征语音的数据，利用算法训练、识别打标。算法结果表明，效果很好。
41.在识别过程中，首先通过采用音频分段模块采集待识别音频并分为多个待识别音频段，然后通过特征提取模块分别对每个待识别音频段进行特征提取，并将得到的每个待识别音频段的特征向量组合得到特征矩阵，通过音频识别模块采用关键词识别模型得到每个待识别音频段的关键词标签，并通过所有待识别音频段的关键词标签的统计，将数量最多的关键词标签作为整体待识别音频的关键词标签，识别方式简单，大大提高了语音关键词识别的准确率，算法复杂度低，识别推理时间短。
42.本发明实施例还提供一种语音关键词识别设备，其特征在于，包括：
43.处理器；
44.存储器，其中存储有所述处理器的可执行指令；
45.其中，所述处理器配置为经由执行所述可执行指令来执行所述的语音关键词识别方法的步骤。
46.通过采用本发明所提供的语音关键词识别设备，所述处理器在执行所述可执行指令时执行所述的语音关键词识别方法，由此可以获得上述语音关键词识别方法的有益效果。
47.本发明实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被处理
器执行时实现所述的语音关键词识别方法的步骤。
48.通过采用本发明所提供的计算机可读存储介质，其中存储的程序在被执行时实现所述的语音关键词识别方法的步骤，由此可以获得上述语音关键词识别方法的有益效果。
附图说明
49.通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。
50.图1是本发明一实施例的语音关键词识别方法的训练部分的流程图；
51.图2是本发明一实施例的语音关键词识别方法的识别部分的流程图；
52.图3是本发明一实施例的将所述样本音频的所有样本音频段的特征向量组合得到特征矩阵的流程图；
53.图4是本发明一实施例的语音关键词识别系统的示意图；
54.图5是本发明一实施例的语音关键词识别设备的结构示意图；
55.图6是本发明一实施例的计算机存储介质的结构示意图。
具体实施方式
56.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。
57.如图1所示，在一实施例中，本发明提供了一种语音关键词识别方法，包括训练部分和识别部分，所述训练部分包括如下步骤：
58.s110：建立训练数据库，所述训练数据库包括多个关键词的样本音频；
59.建立训练数据库的过程即为针对于每个关键词进行样本音频的采集，样本音频可以是wav格式或者其他音频格式的。将对应于同一个关键词的样本音频放在同一个文件夹中，该文件夹的命名可以是所对应关键词的名字或者所对应关键词的编号，即与关键词标签相对应。每个关键词一般至少采集40～50个样本音频，即小数据量的语音样本库；
60.s120：将各个样本音频分为多个样本音频段；
61.此处划分样本音频段例如可以是将样本音频每一帧作为一个音频段，或者设定样本音频每n帧作为一个音频段，n>1，将样本音频的关键词标签作为所包括的各个样本音频段的关键词标签；
62.s130：提取各个样本音频段的特征向量，将所述特征向量按照图像分类训练算法的输入数据要求制作成输入训练算法的特征矩阵；
63.在一些实施例中，可以采用语音特征提取算法pyaudioanalysis来进行每个样本音频段的特征提取。pyaudioanalysis是一个非常好用且强大的音频分析开源工具，能实现音频(包括音乐)的特征提取、分类和回归模型的训练和执行，以及其他一些实用的功能，例如音频分割等处理。
64.在其他可替代的实施方式中，此处进行样本音频段的特征提取可以采用任何有效的特征提取算法，可以自己编写，也可以采用成熟的代码，例如用python代码编写的特征提
取算法：librosa(一个非常强大的python语音信号处理的第三方库)，yaffe(yaafe core audio features，音频基本特征提取)等；
65.s140：基于所述输入训练算法的特征矩阵进行模型训练，存储训练好的关键词识别模型；
66.此处存储训练好的关键词识别模型包括对训练好的关键词识别模型命名并保存；
67.所述识别部分包括如下步骤：
68.s210：采集待识别音频；
69.待识别音频可以是wav格式的，或者其他音频格式的。此处划分待识别音频段例如可以是将待识别音频每一帧作为一个音频段，或者设定待识别音频每n帧作为一个音频段，n>1；
70.s220：将所述待识别音频分为多个待识别音频段，提取各个待识别音频段的特征向量；
71.在一些实施例中，可以采用语音特征提取算法pyaudioanalysis来进行每个待识别音频段的特征提取。pyaudioanalysis是一个非常好用且强大的音频分析开源工具，能实现音频(包括音乐)的特征提取、分类和回归模型的训练和执行，以及其他一些实用的功能，例如音频分割等处理。
72.在其他可替代的实施方式中，此处进行待识别音频段的特征提取可以采用任何有效的特征提取算法，可以自己编写，也可以采用成熟的代码，例如用python代码编写的特征提取算法：librosa(一个非常强大的python语音信号处理的第三方库)，yaffe(yaafe core audio features，音频基本特征提取)等；
73.s230：将待识别的特征向量制作成适合输入所述关键词识别模型的特征矩阵，输入训练好的关键词识别模型，得到各个待识别音频段的标签；
74.s240：统计待识别音频中各个待识别音频段的标签，将数量最多的标签作为待识别音频的关键词标签。
75.本发明的语音关键词识别方法，在训练过程中，首先通过步骤s110采集样本音频，然后通过步骤s120将样本音频划分为多个样本音频段，然后通过步骤s130提取样本音频段并且处理成符合训练算法要求的特征矩阵，通过步骤s140来进行模型训练，在步骤s130和s140中，把通常用于图像分类的算法用到语音上，而且是保留音频数据，构造数据格式，然后直接输入算法。关键词识别模型可以采用少量的样本进行训练，训练时间短，基于小数据量训练，也能达到好的识别结果。本发明做了一次尝试，把通常用于图像处理的算法用于语音处理，而且不是将语音生成语谱图，然后作为一个图像，再用图像算法。而是直接从语音音频文件，提取语音特征值等有效表征语音的数据，利用算法训练、识别打标。算法结果表明，效果很好。
76.在识别过程中，首先通过采用步骤s210和s220采集待识别音频并分为多个待识别音频段，然后通过步骤s220分别对每个待识别音频段进行特征提取，并通过步骤s230将得到的每个待识别音频段的特征向量组合得到特征矩阵，采用关键词识别模型得到每个待识别音频段的关键词标签，并通过步骤s240对所有待识别音频段的关键词标签的统计，将数量最多的关键词标签作为整体待识别音频的关键词标签，识别方式简单，大大提高了语音关键词识别的准确率，算法复杂度低，识别推理时间短。
77.在该实施例中，所述关键词识别模型所采用的图像分类训练算法为xgboost算法。xgboost(extreme gradient boosting)是将成百上千个树模型组合起来成为一个准确率很高的模型，此模型通过不断迭代生成新的树，xgboost预先对数据进行了排序，然后保存为block结构，在训练迭代中重复地使用这个结构，大大减小计算量。特点是计算速度快，模型表现好，可以用于分类和回归问题中。被用于监督学习，监督学习指利用具有多个特征的训练数据xi来预测目标变量yi，在训练数据中yi作为标签是给定的。
78.在该实施例中，音频段的特征提取采用改进的pyaudioanalysis算法，具体地，为采用pyaudioanalysis算法为主，并增加多个短时、中时和/或长时特征提取算法作为补充，来提取有效的特征值。
79.具体地，所述步骤s120：将各个样本音频分为多个样本音频段，包括将样本音频分为短时音频段、中时音频段和长时音频段中的至少一种。所述步骤s220：将待识别音频分为多个待识别音频段，包括将待识别音频分为短时音频段、中时音频段和长时音频段中的至少一种。具体地，将样本音频或待识别音频分为哪种类型的音频段，可以根据实际需要考虑。例如，当将该语音关键词识别方法应用在一些指令识别的场景时，由于待识别音频整体比较短促，则可以只将其划分为短时音频段。当将该语音关键词识别方法应用在比较长的音频识别中时，则可以将其划分为短时音频段和中时音频段，或者划分为短时音频段和长时音频段。
80.其中，短时音频段、中时音频段和长时音频段分别为包括a1个帧的音频段、包括a2个帧的音频段和包括a3个帧的音频段，a1<a2<a3，通常a1＝1。例如，a1＝1时，即将每一帧音频作为一个短时音频段，中时音频段可以包括20～50个帧，长时音频段可以包括50～100个帧等等。具体地，a1、a2和a3的数量可以根据需要设定。
81.具体地，在该实施例中，所述步骤s200：提取各个待识别音频段的特征向量，包括如下步骤：
82.判断需要的特征向量的类别；
83.如果需要短时特征向量，则基于预设的语音特征提取算法提取待识别音频段的短时特征向量；即短时音频段的特征向量为本段音频段的特征向量，例如采用改进的pyaudioanalysis算法提取出的音频段。
84.如果需要中时特征向量或长时特征向量，则获取待识别音频段中所包含的各个短时音频段的特征向量，基于预设的特征统计算法获取待识别音频段的中时或长时特征向量。中时音频段和长时音频段则包括其所包含的各个短时音频段的特征统计值，例如，一个中时音频段包括x个短时音频段，则该中时音频段的特征向量中各个特征值为该x个短时音频段中对应的特征值的均值、标准差、最大值等统计指标。同样地，例如一个长时音频段包括y个短时音频段，则该长时音频段的特征向量中各个特征值为该y个短时音频段中对应的特征值的均值、标准差、最大值等统计指标。
85.中时/长时特征值也可以是静音比例、低频率能量比率、高过零率比值、子带能力比均值、频谱质心均值、带均值、频谱变迁、hmm概率输出值、等统计量特征值等多种特征的一种或其组合，这些通常用于不同类别的音频的分类打标签，例如噪声、语音、音乐等，根据实际需要设定合适的特征值。
86.在该实施例中，所述步骤s130，将含有关键词的不同文件夹组成一个大的训练集，
输入改进的pyaudioanalysis进行特征提取。这里根据实际推理需要，可以将每个样本音频分为短时音频段、中时音频段和长时音频段中的一种或多种。在划分为多种不同类型的音频段时，不同音频段的特征向量不必同时提取。特征向量中特征值的数量根据需要进行算法设计，不局限后面所用到的个数。此处采用pyaudioanalysis的前21个和根据需要设计参数共40个，计算中时、和长时特征值时候需要计算均值和方差，这样会有80个特征值。在实际应用中，可以根据项目的需求不同选择合适时长的音频段进行特征值计算。最后输出特征值矩阵和每个特征向量的关键词标签。每一行/列特征值就是一个特征向量，此处采用每一行就是一个特征向量，每一个特征向量包含40个或者80个特征值，也就是我们矩阵的列数，行数就是所有样本音频的音频段总数。标签是每个样本音频所在文件夹的关键词名称或者关键词编号。每个特征向量对应输出一个关键词标签。一个样本音频有多个音频段，那么这个样本音频所有的音频段的特征向量都是同一个标签，即该样本音频所在文件夹的关键词标签。此处可以采用编号来代替关键词文本本身来作为关键词标签。例如，有9个关键词，则关键词标签分别为1、2、3、4、5、6、7、8、9。
87.在该实施例中，所述训练算法为xgboost模型算法，所述关键词识别模型是xgboost模型。在该实施例中，所述步骤s130中，将特征矩阵数据按照图像分类训练算法的输入数据要求制作成输入训练算法的特征矩阵，包括如下步骤：
88.提取所有样本音频的各个样本音频段的特征向量，在特征向量中，最后一列或者最后一行，添加该样本音频段的关键词标签，将所有样本音频的各个样本音频段的特征向量组合得到特征矩阵。在该实施例中，所述特征向量是行向量，在最后一列添加关键词标签。
89.因此，所述步骤s130中，将样本音频的特征值矩阵和每个特征向量的关键词标签组合得到xgboost算法的输入数据的格式。具体地，在特征矩阵的最后一列，添加一列，即每个特征向量对应的标签，这样，每个行矩阵是41维，或者81维。如图3所示，所述步骤s130中，在该实施例中，将所有样本音频的各个样本音频段的特征向量组合得到特征矩阵，包括如下步骤：
90.s131：将每个样本音频段的特征向量作为特征矩阵中的一行；
91.s132：利用随机数种子生成器，将所有特征向量所在特征矩阵中的行顺序打乱，得到所有特征向量的更新行顺序；
92.s133：基于所有特征向量的更新行顺序，然后将所有特征向量组合得到最终的特征矩阵，输入到xgboost训练算法。
93.在基于样本音频的特征矩阵训练关键词识别模型时，类比xgboost处理图像分类数据一样，设置一系列xgboost的训练参数，划分训练集和验证集，返回训练和验证的错误率等，并进行xgboost模型训练，存储训练模型及名称。
94.在该实施例中，所述步骤s110：建立训练数据库之后，还包括如下步骤：
95.判断所述样本音频的时长是否小于预设时长阈值；
96.如果是，则将所述样本音频重复特定次数，得到新的样本音频，利用所述新的样本音频替代重复特定次数之前的样本音频，目的是得到样本更多的有效特征值。
97.例如，由于关键词短小，如果一个样本音频的时长很短，则可以将对应的样本音频进行2～5次循环重复，得到一个新的样本音频，来替代之前很短的样本音频，然后采用该样
本音频划分为样本音频段并进行特征提取，得到特征矩阵后对关键词识别模型进行训练，训练效果更好，这样也可以减少训练数据少的难题。在训练得到训练好的关键词识别模型后，对于很短的待识别音频，则无需进行重复，直接进行分为音频段和特征提取得到特征矩阵之后，输入到关键词识别模型中识别即可，同样具有很高的识别准确率。
98.通过采用该语音关键词识别方法，大大提升同样是语音的不同关键词音频的分类效果，识别准确率达到98％～99％以上。本发明中，对于数据可以拓展到不同的方言识别。也就是说采集一个关键词，读音可以是方言、普通话等，只要都放在同一个文件夹(同一个关键词的标签)，那么经过训练后模型可以识别该关键词的方言、普通话等发音。本发明所采集的训练数据可以是少量的，即每个关键词40～50个音频文件，由于关键词短小，可以对相应的wav进行2～5遍的重复，然后用于训练中，效果也会更好，这样减少数据少的难题。本发明的语音关键词识别方法不仅用于语音内关键词分类，更可用于多类音频分类、打标签。同时，本发明的语音关键词识别方法是基于机器学习，cpu的算力足已，不需要部署gpu，当然在gpu上可以运行。每个关键词的样本音频采集数量少，也可以进行有效训练，这区别于现有都是需要关键词大规模采集的算法。
99.如图4所示，本发明实施例还提供一种语音关键词识别系统，应用于所述的语音关键词识别方法，所述系统包括：
100.音频分段模块m100，用于建立训练数据库，所述训练数据库包括多个关键词的样本音频，将各个样本音频分为多个样本音频段，以及采集待识别音频，分为多个待识别音频段；
101.特征提取模块m200，用于提取各个样本音频段的特征向量，将所述特征向量按照图像分类训练算法的输入数据要求制作成输入训练算法的特征矩阵；以及提取各个待识别音频段的特征向量，将待识别的特征向量制作成适合输入所述关键词识别模型的特征矩阵；
102.模型训练模块m300，用于基于所述输入训练算法的特征矩阵进行模型训练，存储训练好的关键词识别模型；
103.音频识别模块m400，用于将待识别的特征矩阵输入训练好的关键词识别模型，得到各个待识别音频段的标签，以及统计待识别音频中各个待识别音频段的标签，将数量最多的标签作为待识别音频的关键词标签。
104.本发明的语音关键词识别系统，在训练过程中，首先通过音频分段模块m100采集样本音频，将样本音频划分为多个样本音频段，然后通过特征提取模块m200提取样本音频段并且处理成符合训练算法要求的特征矩阵，通过模型训练模块m300来进行模型训练，在特征提取模块m200和模型训练模块m300中，把通常用于图像分类的算法用到语音上，而且是保留音频数据，构造数据格式，然后直接输入算法。关键词识别模型可以采用少量的样本进行训练，训练时间短，基于小数据量训练，也能达到好的识别结果。本发明做了一次尝试，把通常用于图像处理的算法用于语音处理，而且不是将语音生成语谱图，然后作为一个图像，再用图像算法。而是直接从语音音频文件，提取语音特征值等有效表征语音的数据，利用算法训练、识别打标。算法结果表明，效果很好。
105.在识别过程中，首先通过采用音频分段模块m100采集待识别音频并分为多个待识别音频段，然后通过特征提取模块m200分别对每个待识别音频段进行特征提取，并将得到
的每个待识别音频段的特征向量组合得到特征矩阵，通过音频识别模块m400采用关键词识别模型得到每个待识别音频段的关键词标签，并通过所有待识别音频段的关键词标签的统计，将数量最多的关键词标签作为整体待识别音频的关键词标签，识别方式简单，大大提高了语音关键词识别的准确率，算法复杂度低，识别推理时间短。
106.本发明的语音关键词识别系统中，各个模块的功能可以采用上述语音关键词识别方法的各个步骤的具体实施方式实现，例如，音频分段模块m100可以采用步骤s100的具体实施方式来进行音频分段，将待识别音频分为短时音频段、中时音频段和长时音频段中的至少一种；特征提取模块m200可以采用步骤s200的具体实施方式来进行音频段的特征提取；模型训练模块m300可以采用步骤s300的具体实施方式来进行关键词模型训练并命名保存；特征识别模块m400可以采用步骤s400的具体实施方式来进行关键词标签识别；标签统计模块m500可以采用步骤s500的具体实施方式来确定整个音频段的关键词标签。
107.本发明实施例还提供一种语音关键词识别设备，包括处理器；存储器，其中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行所述的语音关键词识别方法的步骤。
108.所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。
109.下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
110.如图5所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
111.其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的步骤。
112.所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(rom)6203。
113.所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
114.总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
115.电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，
例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
116.通过采用本发明所提供的语音关键词识别设备，所述处理器在执行所述可执行指令时执行所述的语音关键词识别方法，由此可以获得上述语音关键词识别方法的有益效果。
117.本发明实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被处理器执行时实现所述的语音关键词识别方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
118.参考图6所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(cd
‑
rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
119.所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
120.所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
121.可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或集群上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
122.通过采用本发明所提供的计算机可读存储介质，其中存储的程序在被执行时实现所述的语音关键词识别方法的步骤，由此可以获得上述语音关键词识别方法的有益效果。
123.以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页 1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宫云梅;鄢仁祥;徐超
技术所有人：苏州科达科技股份有限公司
我是此专利的发明人

上一篇：一种面罩固定装置及具有其的麻醉气道辅助管理器械的制作方法
上一篇：浸渍活性炭及其制备方法与流程