一种基于文本语义增强的主题提示式关键词提取方法与流程

文档序号:31359853发布日期:2022-08-31 14:22阅读:229来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
1.本发明涉及人工智能自然语言处理
技术领域
:,尤其是涉及一种文本语义增强的关键词提取方法。
背景技术
::2.人工智能的发展给人们的生活带来了许多的便利,其中,自然语言处理领域也跟随着人工智能技术的变革逐渐影响着人们的方方面面;尤其在当下这个快节奏的生活里,对于文本的关键词提取技术渐渐深入人心。关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来,在文献检索、自动文摘、文本聚类和文本分类等方面有着重要的应用。3.关键词提取算法一般分为有监督和无监督两类:4.有监督的关键词提取方法主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到关键词提取的效果。优点是精度较高,缺点是需要大批量的标注数据,人工成本过高,并且词表需要及时维护。5.相比较而言,无监督的方法对数据的要求低,既不需要一张人工生成且需要持续维护的词表,也不需要人工标注语料辅助训练。目前比较常用的关键词提取算法都是基于无监督算法。如tf-idf算法,textrank算法和主题模型算法(包括lsa,lsi,lda等)。6.但随着社交媒体、新媒体、自媒体的快速发展,我们目前面临全新的文本数据。与传统媒体的数据不同,新媒体与社交媒体的数据往往表现在更短的文本长度,但目前大多数关键词抽取方法都基于长文本的模型,在文本长度较短的新媒体数据上的表现差强人意。同时一些基于预训练语言模型的关键词抽取技术都是所有类型的文本数据进行预训练,但是迁移到下游任务时对一些对垂直领域的数据,如对体育新闻,政治时报等没有很强的鲁棒性,往往表现不佳。这是因为预训练时所学习到的主题、关键词分布是基于整体数据集的,抽取出的关键词比较宽泛,跟下游任务数据集的关键词分布有不少偏差。技术实现要素:7.本发明提供了一种基于文本语义增强的主题提示式关键词提取方法,该方法能有效解决短文本关键词抽取以及预训练模型难以拟合下游任务数据的难题,为后续的工程应用提供新的思路。8.为了解决上述问题,本发明包含以下步骤:9.步骤一,收集某个领域的短文本数据集,可以是短文评论,文章标题等。10.步骤二,通过分句模块将文本进行分句,再通过文本语义增强模块对每个句子进行文本增强构造相似文本对。11.步骤三,将相似文本对进行合并得到增强文本,再使用分词模块对增强文本进行分词。12.步骤四,将分词后的文本通过主题建模模块提取一个文本主题。13.步骤五,通过主题匹配模块将文本主题向量化,再匹配一个初始化的既定主题。14.步骤六,既定主题通过主题模板生成模块生成对应的主题提示模板。15.步骤七,主题提示模板与增强文本一起送入文本向量生成模块得到每个文本的向量表示。16.步骤八:使用关键词搜索模块找到与文本向量最相似的几个词语,将最相似的词语识别为最能描述整个文本的词。17.进一步,在步骤一中,所述某个领域数据集诸如:体育新闻,科技短讯等垂直领域,具体可使用汽车之家的口碑评论数据,大部分是长度不超过70的短文本数据。18.进一步,在步骤二中,所述构造文本语义增强模块是指的通过simbert模型(基于预训练语言模型的文本语义相似度召回模型)生成增强的文本。19.进一步,在步骤三中,所述分词模块具体来说是一种基于词典分词的算法,该算法是按照一定的策略将待匹配的字符串和一个已建立好的特征领域词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。20.进一步,在步骤四中,所述主题建模模块具体指的是通过隐含狄利克雷分布(lda)模型,进行初步的主题词建模,送入后续的主题匹配模板模块。21.进一步,在步骤五中,所述主题匹配模块首先将文本主题向量化,再与给定的既定主题向量中匹配最接近的既定主题。22.进一步,在步骤六中,所述主题模板生成模块结合既定主题生成目标领域的提示模板,用于激活下游预训练语言模型(bert)的知识。23.进一步,在步骤七中,所述文本向量生成模块具体指一个预训练语言模型(bert)。24.进一步,在步骤八中,所述关键词查找模块是在向量空间中查找与当前文本向量最接近的词汇。25.本发明的有益效果:本发明将文本增强技术以及提示学习融入到关键词抽取中,优化了模型对短文本关键词抽取能力,同时充分利用了预训练语言模型的知识。附图说明26.图1为本发明实施例的基于文本语义增强的主题提示式关键词提取方法的流程图;27.图2为本发明实施例的基于文本语义增强的主题提示式关键词提取方法的具体流程步骤示意图;28.图3为本发明实施例的使用主题提示模板进行关键词预测时的输入和输出示意图;29.图4为本发明实施例的基于文本语义增强的主题提示式关键词提取方法的模块系统的示意图。具体实施方式30.为了使本发明地目的、技术方案和优点更加清楚,下面对本发明实施方案做进一步详细描述。31.本发明实施例的基于文本语义增强的主题提示式关键词提取方法的流程图如图1和图2所示,具体包括以下步骤:32.步骤一:收集中文短文本数据集并进行分句,具体为汽车之家的口碑评论数据,有20000+条以上的数据,大部分是长度不超过70的短文本数据。[0033][0034][0035]步骤二:文本语义增强模块通过simbert模型生成相似的文本,生成过程具体来说分成两部分:[0036]第一块是构建seq2seq任务,也就是通过输入文本去预测对应相似文本;[0037]第二块是构建语义相似度任务,根据文本对应的cls向量来计算相似度。[0038][0039]步骤三:分词模块是一种基于词典分词的正向最大匹配算法,具体来说可分为:[0040]步骤(1):从左向右可重叠地取语句的m个字符作为匹配字符子串,其中,m为机器词典中最长词语的字符数;[0041]步骤(2):当原句中m个字符的子串与词典的所有词进行匹配,若匹配成功,则将这个匹配字符串作为一个词语;[0042]步骤(3):若匹配不成功,则将m个字符的最后一个字符去掉,用m-1个字符作为新的匹配字段。即m=m-1(m》1),重复1~3步骤,直到切分出所有的词为止。[0043]分词后再根据目标邻域的停用词表去除非必要词汇。[0044][0045]步骤四:主题建模模块使用隐藏狄利克雷分布将文档集中每篇文档的主题以概率分布的形式给出,然后通过分析分到同一主题下的文档抽取其实际的主题,最后根据主题分布进行主题聚类。隐藏狄利克雷分布以文档集合作为输入,最终训练出两个结果向量,即p(单词|主题)和p(主题|文档)这两个概率分布。[0046][0047]步骤五:主题匹配模块首先维护一张既定主题表:包含k个既定主题,参数k的值根据实际需求进行自定义设置,以及每个主题对应的向量映射表。匹配过程如下:[0048]步骤(1):步骤四生成的主题词通过一个预训练语言模型(bert)生成主题词的向量表征;[0049]步骤(2):通过相似度计算,查找在既定主题空间中与主题词向量表征最接近的既定主题向量;[0050]步骤(3):查找向量映射表,将搜索到的主题向量映射为中文表示的既定主题。[0051]既定主题既定主题向量汽车v1房产v2石油v3军工v4[0052]主题词主题词向量既定主题向量既定主题油耗高速(vi+vj)/2v1(0.8)v4(0.2)汽车[0053]步骤六:主题模板生成模块结合既定主题生成提示(prompt)模板,提示模板生成可分为三种:人工构造模板,自动生成模板以及隐空间中的模板。本发明主要采用人工构造模板中的前缀模板(prefixprompt)。结合上文搜索的既定主题,构造“{inputslot},本文主题为{topick},关键词有{answerslot1}{answerslot2}”作为提示模板,其中inputslot作为输入文本的slot,topick为步骤五生成的既定主题,answerslot1和answerslot2分别为该段文本的关键词1和关键词2。[0054][0055]步骤七:文本向量生成模块将配置好的模板输入预训练语言模型(bert),得到输出的每个answerslot向量。[0056]answerslotanswer向量answerslot1as1answerslot2as2[0057]使用主题提示模板进行关键词预测时的输入和输出过程如图3所示:首先将原始本文和相似文本进行合并得到增强文本对,再输入预训练语言模型(bert),其中[inputslot]作为输入位置,[cls]作为增强文本对向量的表征,[mask]则为需要预测的关键词(即,[answerslot])。最后得到概率较高的k个候选关键词。[0058]步骤八:关键词查找模块依次计算answerslot1和answersolt2向量与词汇表中各向量的相似性,相似性计算公式使用余弦相似度计算。选取相似度最高的topn个向量作为关键词向量,因此共生成2*n个关键词向量,最后再将关键词向量通过查找embeddinglookuptable映射为中文关键词,最终这些关键词作为整个文本的关键词。[0059]answer向量相似关键词as1车辆,油耗,省油as2接受,接收,不错[0060]最后本发明实施例的模块系统的示意图如图4所示。[0061]以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。最后通过对实验结果的展示和分析,本发明有效得解决了垂直领域短文本关键词抽取的问题。当前第1页12当前第1页12
完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种电脑发光装饰板的制作方法
  • 一种广空间超低抖动同步信号产...
  • 图像处理方法、装置、设备及存...
  • 一种互质阵列环境下广义标签多...
  • 一种边缘云一体机的制作方法
  • 数据筛选方法、装置、存储介质...
  • 一种纠正手握鼠标姿势的鼠标的...
  • 一种基于数据中台电网项目投入...
  • 一种轨道表面磨损识别分类方法...
  • 一种批量调度作业的方法、装置...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

深圳SEO优化公司济宁推广网站许昌设计网站报价淮北优化泉州模板推广公司北海seo优化报价鄂州至尊标王报价台州网站优化软件哪家好庆阳网站推广哪家好中卫网站优化按天扣费推荐梧州网站搜索优化玉树建设网站价格漯河营销网站公司绥化百度网站优化报价云浮建网站公司庆阳建设网站多少钱北京百姓网标王价格聊城关键词按天计费推荐南澳网站开发价格榆林营销型网站建设哪家好芜湖网站建设多少钱吴忠模板网站建设芜湖营销网站公司横岗百度竞价包年推广多少钱青岛seo排名哪家好昌都百度网站优化多少钱忻州网站建设设计推荐眉山网站关键词优化多少钱梧州建站报价萍乡高端网站设计哪家好秦皇岛网页制作哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化