一种基于图模型的关键词提取方法及装置与流程

文档序号:11691039阅读:406来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种基于图模型的关键词提取方法及装置与流程

本发明涉及关键词提取技术领域,特别是涉及一种基于图模型的关键词提取方法及装置。



背景技术:

关键词作为一段文本中具有代表性的文字,已经被广泛应用在信息检索、文本分类等方面。其中,基于图模型的关键词提取方法已经被广泛应用于搜索排序、引文分析、社交网络以及自然语言处理(如关键词提取、文章主题句提取等)等方面。图模型是一类用图来表示概率分布的一类技术的总称,一篇文本可以被映射为一个以词语为节点、词语之间的关联关系为边的网络图。基于图模型的关键词提取方法的两个基本假设为:1、数量假设:某一节点与其他节点链接数越多,那么该节点越重要;2、质量假设:与节点a相连的节点质量不同,质量高的节点会通过链接向其他节点传递更多的权重,所以越是质量高的节点链接到节点a,节点a越重要。因此,基于图模型的关键词提取方法的关键是链接权重的计算,而节点之间的链接权重为词与词之间的相似度。

现有的基于图模型的关键词提取方法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的组成单元进行排序,然后选取排序靠前的组成单元作为关键词。具体的,先把给定的文本按照完整句子进行分割;然后对于每个句子进行分词和词性标注处理,得到词及词对应的词性标注;根据词及词性标注,过滤掉这些词中介词、助词、连词、感叹词等停用词,保留名词、动词、形容词等指定词性的词,并将指定词性的词作为候选关键词;再根据候选关键词,构建候选关键词图模型,即将候选关键词为候选关键词图模型的节点,候选关键词之间的关联关系作为关键词图模型的边,其中,候选关键词之间的关联关系通过计算候选关键词之间的相似度得到。在基于图模型的关键词提取方法中,采用加窗的方式构建词与词之间的相似度,让每个窗口内的词给它相邻的窗口投票,投票的权重取决于自己的票数,由于每个窗口与它相邻的窗口有共现的词,因此也可以说词与词之间的相似度是通过词与词共现得到的;最后在这个图上候选关键词的票数经过迭代投票,可以得到候选关键词的票数排序,并选取票数靠前的候选关键词作为关键词。

但是,现有的基于图模型的关键词提取方法,要通过词与词之间共现才能得到词与词之间的相似度,这样,对重复出现的词就会有过重的加权,例如候选关键词中一些不能成为关键词,但多次重复出现的词,如内容、计算、处理、解决、最高等,导致关键词提取准确率不高。另外,提取关键词的结果对窗口的大小比较敏感,由于窗口的大小需要人为来设定例如,一个句子依次由下面的词组成:w1、w2、w3、w4、w5…wn,设定窗口的大小为k,则w1、w2、w3…wk,w2、w3、w4…wk+1,w3、w4、w5…wk+2等都是一个窗口,在一个窗口中的任两个词对应的节点之间存在一个无向无权的边,那么,不同大小窗口的选取可能导致截然不同的结果,也导致关键词提取准确率不高。



技术实现要素:

本发明实施例的目的在于提供一种基于图模型的关键词提取方法及装置,提高关键词提取的准确率。具体技术方案如下:

本发明实施例公开了一种基于图模型的关键词提取方法,所述方法包括:

获取待处理文本,并对所述待处理文本进行分词,得到所述待处理文本对应的候选关键词;

在词向量模型中查找所述候选关键词对应的词向量,所述词向量模型包括所述候选关键词的词向量;

根据所述词向量构建所述候选关键词的词相似度矩阵;

根据所述候选关键词的词相似度矩阵对所述候选关键词进行排序,提取所述待处理文本的关键词。

可选的,所述根据所述词向量构建所述候选关键词的词相似度矩阵,包括:

根据公式:

计算所述候选关键词之间对应的词向量夹角的余弦值,其中,θ表示所述候选关键词之间的向量的夹角,x1k表示其中一个候选关键词n维空间中对应的向量的特征值,x2k表示其中另一个候选关键词n维空间中对应的向量的特征值,n表示向量空间的维度;

根据所述词向量夹角的余弦值,构建所述候选关键词相似度矩阵。

可选的,所述根据所述候选关键词的词相似度矩阵对所述候选关键词进行排序,包括:

根据pagerank算法计算所述候选关键词的词相似度矩阵,得到所述候选关键词的对应的pagerank值;

根据所述pagerank值对所述候选关键词进行排序,得到所述候选关键词的重要程度;

根据所述重要程度,提取所述待处理文本的关键词。

可选的,所述根据pagerank算法计算所述候选关键词的词相似度矩阵,包括:

根据所述词相似度矩阵的阶数,确定所述pagerank算法的初始值;

根据所述初始值和所述词相似度矩阵,计算所述候选关键词的初始特征向量值;

根据公式:

pt=mtpt-1

计算所述候选关键词的特征向量值,其中,在t=1时,则p1表示所述初始特征向量值,p0表示所述初始权重,pt表示所述词相似度矩阵在第t步的特征向量值,pt-1表示所述词相似度矩阵在第t-1步的特征向量值,m表示所述候选关键词的词相似度矩阵,mt表示所述词相似度矩阵的转置,t表示计算的步数,t的取值大于或等于1;

当所述第t步的特征向量值与所述第t-1步的特征向量值的范数小于所述pagerank算法的误差容忍度时,所述第t步的特征向量值为所述候选关键词的对应的pagerank值。

可选的,所述获取待处理文本,并对所述待处理文本进行分词,得到所述待处理文本对应的候选关键词,包括:

获取待处理文本,并对所述待处理文本进行分词,得到停用词和指定词性的词,所述停用词至少包括介词、助词、连词、感叹词,所述指定词性的词至少包括名词、动词、形容词;

过滤掉所述停用词,得到所述指定词性的词,所述指定词性的词为所述待处理文本对应的候选关键词。

可选的,所述词向量是通过word2vec训练得到的。

本发明实施例还公开了一种基于图模型的关键词提取装置,所述装置包括:

获取模块,用于获取待处理文本,并对所述待处理文本进行分词,得到所述待处理文本对应的候选关键词;

查找模块,用于在词向量模型中查找所述候选关键词对应的词向量,所述词向量模型包括所述候选关键词的词向量;

处理模块,用于根据所述词向量构建所述候选关键词的词相似度矩阵;

提取模块,用于根据所述候选关键词的词相似度矩阵对所述候选关键词进行排序,提取所述待处理文本的关键词。

可选的,所述处理模块,包括:

第一计算单元,用于根据公式:

计算所述候选关键词之间对应的词向量夹角的余弦值,其中,θ表示所述候选关键词之间的向量的夹角,x1k表示其中一个候选关键词n维空间中对应的向量的特征值,x2k表示其中另一个候选关键词n维空间中对应的向量的特征值,n表示向量空间的维度;

构建单元,用于根据所述词向量夹角的余弦值,构建所述候选关键词相似度矩阵。

可选的,所述提取模块,包括:

第二计算单元,用于根据pagerank算法计算所述候选关键词的词相似度矩阵,得到所述候选关键词的对应的pagerank值;

排序单元,用于根据所述pagerank值对所述候选关键词进行排序,得到所述候选关键词的重要程度;

提取单元,用于根据所述重要程度,提取所述待处理文本的关键词。

可选的,所述第二计算单元,包括:

第一确定子单元,用于根据所述词相似度矩阵的阶数,确定所述pagerank算法的初始值;

第一计算子单元,用于根据所述初始值和所述词相似度矩阵,计算所述候选关键词的初始特征向量值;

第二计算子单元,用于根据公式:

pt=mtpt-1

计算所述候选关键词的特征向量值,其中,在t=1时,则p1表示所述初始特征向量值,p0表示所述初始权重,pt表示所述词相似度矩阵在第t步的特征向量值,pt-1表示所述词相似度矩阵在第t-1步的特征向量值,m表示所述候选关键词的词相似度矩阵,mt表示所述词相似度矩阵的转置,t表示计算的步数,t的取值大于或等于1;

第二确定子单元,用于当所述第t步的特征向量值与所述第t-1步的特征向量值的范数小于所述pagerank算法的误差容忍度时,所述第t步的特征向量值为所述候选关键词的对应的pagerank值。

可选的,所述获取模块,包括:

获取单元,用于获取待处理文本,并对所述待处理文本进行分词,得到停用词和指定词性的词,所述停用词至少包括介词、助词、连词、感叹词,所述指定词性的词至少包括名词、动词、形容词;

处理单元,用于过滤掉所述停用词,得到所述指定词性的词,所述指定词性的词为所述待处理文本对应的候选关键词。

可选的,所述词向量是通过word2vec训练得到的。

本发明实施例提供的一种基于图模型的关键词提取方法及装置,通过词向量计算文本中词与词之间的相似度,并构建相似度矩阵,使得提取到的关键词在一定程度上反映了其在当前文本中的语义重要性。在构建相似度矩阵时,词与词之间的相似度不是依靠词与词之间共现,而是基于词向量计算得到的,这样,避免了关键词提取过程中采用词与词之间共现导致的重复出现的词加权过大的问题,也无需人为设定窗口的大小,通过语义相似度选择出更符合文档主题的关键词,提高了关键词提取的准确率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为现有的基于图模型的关键词提取方法中的图模型的结构示意图;

图2为本发明实施例提供的一种基于图模型的关键词提取方法的流程图;

图3为本发明实施例提供的一种基于图模型的关键词提取装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

基于图模型的关键词提取方法是提取关键词的一种有效的方法,其中,图模型是一类用图来表示概率分布的一类技术的总称,一篇文本可以被映射为一个以词语为节点、词语之间的关联关系为边的网络图。如图1所示,图1为现有的基于图模型的关键词提取方法中的图模型的结构示意图,图1中的w1、w2、w3…w10、w11分别为候选关键词,也是图模型的节点,节点与节点之间的线构成的边表示各候选关键词的关联关系,线越粗表示边的权重越大,即这个边所连接的这两个关键词的关联关系越大,本发明就是在这种图模型的基础上来提取关键词。

参见图2,图2为本发明实施例提供的一种基于图模型的关键词提取方法的流程图,包括如下步骤:

s201,获取待处理文本,并对待处理文本进行分词,得到待处理文本对应的候选关键词。

具体的,获取待处理文本,先对获取的待处理文本进行分词,分词的目的是将待处理文本按一定的根据一定的规则进行分词处理,从而提取候选关键词。中文因为自身常以词语、短语、俗语等表现形式,因此中文分词具有很大的不确定性。目前主要的分词方法:基于字符串匹配的分词方法,即机械分词,算法成熟使用广泛,其核心是通过邮件文本与词典词汇的匹配,实现分词,关键在于使用词典的完备程度;基于理解的分词方法,即人工智能方法,分词精度高,算法复杂;基于统计的分词方法,优势在于识别未登录词和专有名词,但训练文本量大。这些分词方法都具有较高的分词准确率和快速的分词系统。这里,通过现有的分词方法对待处理文本进行分词,会自动过滤掉这些词中介词、助词、连词、感叹词等停用词,保留名词、动词、形容词等指定词性的词,并将指定词性的词作为候选关键词。这样,就得到了待处理文本对应的候选关键词了。

s202,在词向量模型中查找候选关键词对应的词向量,词向量模型包括候选关键词的词向量。

通常,神经网络将词表中的词语作为输入,输出一个低维度的向量表示这个词语,然后用反向传播的方法不断优化参数。输出的低维向量是神经网络第一层的参数。生成词向量的神经网络模型分为两种,一种是通过word2vec或glove(globalvectorsforwordrepresentation)等训练得到的词向量模型,这类模型的目的就是生成词向量,另一种是将词向量作为副产品产生,两者的区别在于计算量不同。两种模型的另一个区别在于训练的目标不同:word2vec和glove的目的是训练可以表示语义关系的词向量,它们能被用于后续的任务中;如果后续任务不需要用到语义关系,则按照此方式生成的词向量并没有什么用。另一种模型则根据特定任务需要训练词向量。当然,若特定的任务就是对语言建模,那么两种模型生成的词向量非常相似了。

具体的,将自然语言理解的问题转化为机器学习的问题,那么就先要找一种方法把这些符号数学化。而词向量具有良好的语义特性,是表示词语特征的常用方式。词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系。词向量的每一维的值代表一个具有一定的语义和语法上解释的特征。故可以将词向量的每一维称为一个词语特征。词向量用distributedrepresentation(分布式表示)来表示,一种低维实数向量。词向量计算是通过训练的方法,将语言词表中的词映射成一个长度固定的向量。distributedrepresentation是一个稠密、低维的实数限量,它的每一维表示词语的一个潜在特征,该特征捕获了有用的句法和语义特征,其特点是将词语的不同句法和语义特征分布到它的每一个维度上去表示。这里,采用低维空间表示法,不但解决了维数灾难问题,并且挖掘了词之间的关联属性,通过计算词向量之间的距离,便能得到两个词之间的相似度,从而提高了向量语义上的准确度。

词向量模型中包括候选关键词所对应的词向量,在词向量模型中找出候选关键词所对应的词向量,主要是为了计算候选关键词之间的距离的大小,从而得到候选关键词之间的相似度。本发明在现有的基于图模型的关键词提取方法中引入词向量,通过词向量计算候选关键词之间的相似度,从而避免了现有方法中采用加窗的方式构建词与词之间的相似度,且需要人为设定窗口大小,导致候选关键词提取准确率不高的问题。

s203,根据词向量构建候选关键词的词相似度矩阵。

具体的,词向量之间的余弦距离的大小代表了词之间关系的远近,即通过计算词向量之间的余弦距离,得到候选关键词之间的相似度。这里,得到的候选关键词之间的相似度是用数值表示的,将这些数值构成词相似度矩阵中的元素。其中,矩阵为n阶行列式。如表1所示,表中的a、b、c、d、e、f、g、h代表各候选关键词所对应的词向量,表中的数值为词向量之间的余弦距离,也就是候选关键词之间的相似度的大小。

表1

则根据这些候选关键词之间的相似度的大小,构建候选关键词的相似度矩阵,用m表示,即

s204,根据候选关键词的词相似度矩阵对候选关键词进行排序,提取待处理文本的关键词。

具体的,通过基于图模型的关键词提取方法中的关键词排序算法,计算候选关键词的词相似度矩阵,得到候选关键词对应的排序算法值。然后根据排序算法值对候选关键词进行排序。最后,选取排序靠前的候选关键词作为待处理文本的关键词。这里,根据实际需要选取排序靠前的候选关键词的个数。

由此可见,本发明实施例提供的一种基于图模型的关键词提取方法,通过词向量计算文本中词与词之间的相似度,并构建相似度矩阵,使得提取到的关键词在一定程度上反映了其在当前文本中的语义重要性。在构建相似度矩阵时,词与词之间的相似度不是依靠词与词之间共现,而是基于词向量计算得到的,这样,避免了关键词提取过程中采用词与词之间共现导致的重复出现的词加权过大的问题,也无需人为设定窗口的大小,通过语义相似度选择出更符合文档主题的关键词,提高了关键词提取的准确率。

在本发明一个可选的实施例中,根据词向量构建候选关键词的词相似度矩阵,包括:

根据公式:

计算候选关键词之间对应的词向量夹角的余弦值,其中,θ表示候选关键词之间的向量的夹角,x1k表示其中一个候选关键词n维空间中对应的向量的特征值,x2k表示其中另一个候选关键词n维空间中对应的向量的特征值,n表示向量空间的维度。

根据词向量夹角的余弦值,构建候选关键词相似度矩阵。

具体的,通过计算词向量之间的距离,来得到词与词之间的相似度。而词向量之间的距离是通过词向量之间的夹角的余弦值来计算的,因此,本发明通过计算候选关键词之间对应的词向量夹角的余弦值,然后根据词向量夹角的余弦值,构建候选关键词相似度矩阵。

候选关键词之间对应的词向量夹角的余弦值是通过n维空间向量夹角余弦值计算公式得到的,在n维空间中,例如有两个向量分别是向量a(x11,x12…x1n)与向量b(x21,x22…x2n),那么向量a和向量b的夹角的余弦值的计算公式为:

其中,θ表示向量a和向量b的夹角,x1k表示向量a对应的特征值,x2k表示向量b对应的特征值,n表示向量空间的维度

这里,在二维空间中,例如有两个向量分别是向量a(x11,x12)与向量b(x21,x22),那么向量a和向量b的夹角的余弦值的计算公式为:

其中,θ表示向量a和向量b的夹角,x11和x12表示向量a对应的特征值,x21和x22表示向量b对应的特征值。

在三维空间中,例如有两个向量分别是向量a(x11,x12,x13)、向量b(x21,x22,x23),那么向量a和向量b的夹角的余弦值的计算公式为:

其中,θ表示向量a和向量b的夹角,x11、x12和x13表示向量a对应的特征值,x21、x22和x23表示向量b对应的特征值。

对于更高维空间中的两个向量之间的夹角的余弦值,在此不一一列举,凡是符合n维空间向量夹角余弦值计算公式的,都属于本发明保护的范围。

在本发明实施例中,根据候选关键词的词相似度矩阵对候选关键词进行排序,包括:

根据pagerank算法计算候选关键词的词相似度矩阵,得到候选关键词的对应的pagerank值;

具体的,pagerank(网页排名)算法是google排名运算法则(排名公式)的一部分,是google用于用来标识网页的等级/重要性的一种方法,是google用来衡量一个网站的好坏的唯一标准。本发明借助pagerank算法的原理对关键词进行排序。通过pagerank算法计算候选关键词的词相似度矩阵,通过这种迭代回归的算法,最终得到候选关键词的对应的pagerank值。

根据pagerank值对候选关键词进行排序,得到候选关键词的重要程度;

这里,候选关键词的pagerank值最大,表明用户搜索关键词时,该关键词为用户最感兴趣的关键词,其他关键词依次递减,同时,候选关键词的pagerank值最大,也说明候选关键词越重要。例如,得到的候选关键词的排序依次是b:1.47、h:1.41、e:1.39、a:1.30、f:1.14、g:1.12、d:1.09、c:1.08,说明候选关键词b的最重要,其它候选关键词的重要程度根据排序依次递减。

根据重要程度,提取待处理文本的关键词。

这里,根据实际所需,提取排序靠前(topn)的候选关键词作为待处理文本的关键词。

在本发明实施例中,根据pagerank算法计算候选关键词的词相似度矩阵,包括:

根据词相似度矩阵的阶数确定pagerank算法的初始值;

具体的,根据矩阵的大小n确定pagerank算法的初始值,即p0表示pagerank算法的初始值。这里,由于pagerank算法假设每个网页的概率都是相等的,因此,根据pagerank算法假设每个候选关键词出现的概率都是相等的,即并将作为pagerank算法的初始值。根据初始值和词相似度矩阵计算候选关键词的初始特征向量值;

具体的,根据公式

p1=mtp0

计算候选关键词的初始特征向量值,其中,p1表示pagerank算法的初始特征向量值,p0表示pagerank算法的初始值,m表示候选关键词的词相似度矩阵,mt表示词相似度矩阵的转置。

根据公式:

pt=mtpt-1

计算候选关键词的特征向量值,其中,在t=1时,则p1表示所述初始特征向量值,p0表示所述初始权重,pt表示词相似度矩阵在第t步的特征向量值,pt-1表示词相似度矩阵在第t-1步的特征向量值,m表示候选关键词的词相似度矩阵,mt表示词相似度矩阵的转置,t表示计算的步数,t的取值大于或等于1;

具体的,pagerank算法是一种迭代回归的算法,通过将候选关键词的词相似度矩阵反复迭代计算,得到最终的候选关键词的对应的pagerank值,这样,使得提取到的关键的准确率更加精确。

当第t步的特征向量值与第t-1步的特征向量值的范数小于pagerank算法的误差容忍度时,第t步的特征向量值为候选关键词的对应的pagerank值。

这里,由于向量的计算过程存在误差,所以pagerank算法会预设一个误差宽容度∈,当第t步的特征向量值与第t-1步的特征向量值的范数小于pagerank算法的误差容忍度时,此时得到的候选关键词所对应的pagerank值是更加准确的,有利于提高关键词的提取准确率。具体的算法如下:

具体的过程:

首先,pagerank算法通过输入一个随机的、不可约的、非周期的矩阵m,矩阵的大小n,误差宽容度∈。这里,矩阵m是通过词向量构建的,即本发明中的词相似度矩阵,矩阵的大小n即矩阵的阶数。另外,由于向量的计算过程存在误差,所以pagerank算法会预设一个误差宽容度∈。

然后,pagerank算法通过以下步骤来计算候选关键词的特征向量值:

第1步,根据矩阵的大小n确定pagerank算法的初始值,即p0表示pagerank算法的初始值。这里,由于pagerank算法假设每个网页的概率都是相等的,因此,根据pagerank算法假设每个候选关键词出现的概率都是相等的,即并将作为pagerank算法的初始值。

第2步,t=0,这里,t表示pagerank算法计算的步数,那么t=0表示还没有对相似度矩阵m进行计算。

第3步和第4步,根据t=t+1,开始重复不断计算。

第5步,根据公式

pt=mtpt-1

计算词相似度矩阵特征向量值,其中,pt表示词相似度矩阵在第t步的特征向量值,pt-1表示词相似度矩阵在第t-1步的特征向量值,m表示候选关键词的词相似度矩阵,t表示计算的步数。这里,由于pagerank算法是一个迭代回归的算法,所以需要不断对词相似度矩阵m进行迭代计算,才能更加准确的得到词相似度矩阵的特征向量值。

第6步,δ=||pt-pt-1||

第7步,untilδ<∈,这里直到词相似度矩阵在第t步的特征向量值,与词相似度矩阵在第t-1步的特征向量值的范数小于误差宽容度∈,才停止计算。

第8步,returnpt,得到最终的词相似度矩阵特征向量值。

最后,输出特征向量p,即最终的词相似度矩阵特征向量值pt。

在本发明实施例中,获取待处理文本,并对待处理文本进行分词,得到待处理文本对应的候选关键词,包括:

获取待处理文本,并对待处理文本进行分词,得到停用词和指定词性的词,停用词至少包括介词、助词、连词、感叹词,指定词性的词至少包括名词、动词、形容词。

具体的,获取待处理文本进行分词后的词可以分为两类:停用词和指定词性的词。在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。过滤掉停用词,得到指定词性的词,指定词性的词为待处理文本对应的候选关键词。其中,停用词是指在文本中大量出现,但对表征文本特征几乎无用的词,例如文本中的“我、的、然后、是、那么、另外”等这些虚词对文本特征没有任何作用。要过滤停用词,首先要构造停用词表,主要是上下文提到的副词、连词、介词、语气助词等。所以在中文分词后,一定要过滤掉停用词,这样不仅能有效提高关键词的密度,同时也会大大降低文本的维度,避免了“维度灾难”的出现。

在本发明实施例中,词向量是通过word2vec训练,将词表达成向量的形式。

具体的,word2vec是google在2013年年中开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。word2vec使用的是distributedrepresentation的词向量表示方式。distributedrepresentation最早由hinton在1986年提出。其基本思想是通过训练将每个词映射成k维实数向量(k一般为模型中的超参数),通过词之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度。其采用一个三层的神经网络,输入层-隐层-输出层。有个核心的技术是根据词频用huffman编码,使得所有词频相似的词隐藏层激活的内容基本一致,出现频率越高的词语,他们激活的隐藏层数目越少,这样有效的降低了计算的复杂度。word2vec算法基于深度学习,通过模型训练,把对文本内容的处理简化为k维向量空间中的向量运算。通过向量空间上的相似度可以用来表示文本语义上的相似度,能够将词向量转化为向量,可以寻找同义词。

通过本发明提出的一种基于图模型的关键词提取方法,与现有的关键词的提取方法相比,取得了较好的效果。表2示出了本发明所提出的关键词的提取方法得到的关键词的排序,和现有的关键词的提取方法所得到的关键词的排序的对比。

表2

由表2可以得出,第1个和第2个文本属于短文本,由于该文本中的每个候选关键词只出现一次,因此每个候选关键词成为关键词被提取的概率是相同的,可见,通过现有的关键词的提取方法,文本1和文本2无法准确的提取关键词,而通过本发明提供的关键词的提取方法可以得到各候选关键词的排序,从而提取关键词。第3个文本属于长文本,文本中出现的各候选关键词也重复出现在文本中,从结果可以看出,通过现有的关键词的提取方法所得到的关键词的排序中的“人气,记者,媒体,留给,颇受”作为关键词并没有实际的意义,只是这些词由于在文中重复出现的次数较多,而被作为候选关键词;通过本发明所提出的关键词的提取方法得到的关键词的排序,使得关键词的提取准确率更高。

参见图3,图3为本发明实施例提供的一种基于图模型的关键词提取装置的结构图,该装置包括如下模块:

获取模块301,用于获取待处理文本,并对待处理文本进行分词,得到待处理文本对应的候选关键词;

查找模块302,用于在词向量模型中查找候选关键词对应的词向量,词向量模型包括候选关键词的词向量;

处理模块303,用于根据词向量构建候选关键词的词相似度矩阵;

提取模块304,用于根据候选关键词的词相似度矩阵对候选关键词进行排序,提取待处理文本的关键词。

进一步的,处理模块303,包括:

第一计算单元,用于根据公式:

计算候选关键词之间对应的词向量夹角的余弦值,其中,θ表示候选关键词之间的向量的夹角,x1k表示其中一个候选关键词n维空间中对应的向量的特征值,x2k表示其中另一个候选关键词n维空间中对应的向量的特征值,n表示向量空间的维度;

构建单元,用于根据词向量夹角的余弦值,构建候选关键词相似度矩阵。

进一步的,提取模块304,包括:

第二计算单元,用于根据pagerank算法计算候选关键词的词相似度矩阵,得到候选关键词的对应的pagerank值;

排序单元,用于根据pagerank值对候选关键词进行排序,得到候选关键词的重要程度;

提取单元,用于根据重要程度,提取待处理文本的关键词。

进一步的,第二计算单元,包括:

第一确定子单元,用于根据词相似度矩阵的阶数,确定pagerank算法的初始值;

第一计算子单元,用于根据初始值和词相似度矩阵,计算候选关键词的初始特征向量值;

第二计算子单元,用于根据公式:

pt=mtpt-1

计算候选关键词的特征向量值,其中,在t=1时,则p1表示所述初始特征向量值,p0表示所述初始权重,pt表示词相似度矩阵在第t步的特征向量值,pt-1表示词相似度矩阵在第t-1步的特征向量值,m表示候选关键词的词相似度矩阵,mt表示词相似度矩阵的转置,t表示计算的步数,t的取值大于或等于1;

第二确定子单元,用于当第t步的特征向量值与第t-1步的特征向量值的范数小于pagerank算法的误差容忍度时,第t步的特征向量值为候选关键词的对应的pagerank值。

进一步的,获取模块301,包括:

获取单元,用于获取待处理文本,并对待处理文本进行分词,得到停用词和指定词性的词,停用词至少包括介词、助词、连词、感叹词,指定词性的词至少包括名词、动词、形容词;

处理单元,用于过滤掉停用词,得到指定词性的词,指定词性的词为待处理文本对应的候选关键词。

进一步的,词向量是通过word2vec训练得到的。

由此可见,本发明实施例提供的一种基于图模型的关键词提取装置,通过处理模块的词向量计算文本中词与词之间的相似度,并构建相似度矩阵,使得提取到的关键词在一定程度上反映了其在当前文本中的语义重要性。在构建相似度矩阵时,词与词之间的相似度不是依靠词与词之间共现,而是基于词向量计算得到的,这样,避免了关键词提取过程中采用词与词之间共现导致的重复出现的词加权过大的问题,也无需人为设定窗口的大小,通过语义相似度选择出更符合文档主题的关键词,提高了关键词提取的准确率。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种二次匹配语义的语义分析方...
  • 一种语音内容分析方法与流程
  • 一种语义识别方法与流程
  • 一种基于语句分段的语义分析方...
  • 一种语义分析方法与流程
  • 新词发现的方法及装置与流程
  • 物流系统中地址信息的处理方法...
  • 一种中文分词方法及装置与流程
  • 一种在线自助版面设计系统及其...
  • 一种兼容emoji表情符排版...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
提取关键词相关技术
  • 一种用户反馈自动回复方法及装置的制造方法
  • 一种在线语音咨询系统的制作方法
  • 用于媒体资源检索的设备、方法及系统的制作方法
  • 一种关键词提取方法和装置的制造方法
  • 一种关键词提取方法及装置的制造方法
  • 一种关键词提取方法及装置的制造方法
  • 一种人物画像与职位匹配的方法及系统的制作方法
  • 一种快速提取亚麻籽油的方法
  • 关键词提取方法及装置的制造方法
  • 语义关键词提取方法及装置的制造方法
关键词提取工具相关技术
  • 基于聊天时间的关键词提取方法及装置的制造方法
  • 一种基于复杂网络的博客关键词提取方法
  • 卡光杆专用工具的制作方法
  • 广告关键词提取方法和装置的制造方法
  • 一种提取关键词的方法及装置的制造方法
  • 一种大数据环境下业务标签的扩展方法
  • 基于社交网络的关键词提取方法及装置的制造方法
  • 一种网络未知应用的关键词提取方法
  • 可高效率地提取光的玻璃基板及其制造方法
  • 一种基于b2b平台的核心关键词自动提取方法
天谕模型贴图提取方法相关技术
  • 电路模型提取方法
  • 一种提取坡模醇酸的方法
  • 网模石子贴及其制造方法
提取关键词的方法相关技术
  • 提取文档关键句的方法及装置的制造方法
  • 提取文档中关键词的方法及装置的制造方法
  • 基于聊天时间的关键词提取方法及装置的制造方法
  • 一种基于复杂网络的博客关键词提取方法
  • 广告关键词提取方法和装置的制造方法
  • 一种提取关键词的方法及装置的制造方法
  • 从文档中提取关键词的方法和设备的制造方法
  • 提取页面中关键词的方法及装置的制造方法
  • 基于社交网络的关键词提取方法及装置的制造方法
  • 一种基于信息量的快速sift提取方法
关键词提取方法相关技术
  • 一种关键词提取方法及装置的制造方法
  • 种子关键字字典建立方法和装置及关键词提取方法和装置的制造方法
  • 关键词提取方法及装置的制造方法
  • 语义关键词提取方法及装置的制造方法
  • 提取文档关键句的方法及装置的制造方法
  • 提取文档中关键词的方法及装置的制造方法
  • 一种基于地质大数据的标引关键词提取方法和系统的制作方法
  • 基于聊天时间的关键词提取方法及装置的制造方法
  • 一种基于复杂网络的博客关键词提取方法
  • 广告关键词提取方法和装置的制造方法
文本关键词提取方法相关技术
  • 文本信息提取方法及装置与流程
  • 一种基于文本的关键人名的提取方法及系统与流程
  • 一种基于Spark的海量文本关键词快速提取方法与流程
  • 文本标签的提取方法和装置与流程
  • 一种基于图模型的关键词提取方法及装置与流程
  • 一种基于关键词提取热点话题的方法与流程
  • 一种基于图模型的关键词提取方法及装置与流程
  • 一种基于语义的特定任务文本关键词提取方法与流程
  • 关键词提取方法及装置与制造工艺
  • 一种基于深度学习的文本关键词提取方法

深圳SEO优化公司爱联网站搭建布吉企业网站设计松岗seo网站推广大运营销网站塘坑网站推广方案平湖优化盐田网络推广丹竹头百姓网标王龙岗百度竞价包年推广沙井企业网站建设坪地百度标王横岗seo排名民治模板网站建设荷坳阿里店铺托管沙井SEO按效果付费塘坑SEO按天收费宝安百度标王南联网站seo优化广州网站开发丹竹头建设网站南山模板网站建设坂田网站优化按天收费爱联设计公司网站大鹏建设网站木棉湾seo网站推广南联seo优化广州网站制作设计南澳外贸网站制作观澜关键词按天计费南山外贸网站建设歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化