一种文章关键句自动标注方法及装置与流程

文档序号:21550726发布日期:2020-07-21 10:58阅读:197来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种文章关键句自动标注方法及装置与流程

本发明涉及计算机自然语言处理技术领域,尤其涉及一种文章关键句自动标注方法及装置。



背景技术:

在移动互联网时代,用户越来越倾向于在手机等移动终端阅读各类文章,包括新闻、资讯、博客等内容。由于在移动终端阅读时间的碎片化,用户在大多数文章上不可能分配很长的阅读时间。另外,由于互联网时代的信息爆炸,造成资讯泛滥,用户面临接受信息过多、信息过载的问题,因此需要在阅读文章时迅速浏览,快速识别、消化文章的重点内容,加快信息消费的速度。



技术实现要素:

本发明的主要目的在于提出一种文章关键句自动标注方法及装置,旨在解决如何自动为一篇文章“划重点”,也就是标记关键内容的问题。

为实现上述目的,本发明提供的一种文章关键句自动标注方法,该方法主要步骤包括:对文章进行段落分析,拆分成多个段落;将拆分后的每一段按照标点符号进一步拆分为句子;选定最能代表文章中心的内容,作为核心内容;将拆分的所述多个段落按照和核心内容内容的语义匹配程度进行排序;从排序靠前的段落开始,将段落中的各个句子依次按照和核心内容的内容语义匹配程度排序;依次在每一段中选取匹配程度达到第一阈值,且长度合适的句子作为关键句;当关键句的数量达到第二阈值时,对得到的关键句进行自动标注。

优选地,该方法对文章进行段落分析时,可以依靠文章来源网页的html标签,如p标签,br标签等。

优选地,该方法在对段落进行拆分成句时,需要同时考虑多种标点符号,包括中文句号,问号,感叹号,以及其对应的英文标点符号。

优选地,在选择文章核心内容时,根据文章本身特点,可以有两种选取核心内容内容的方式。其一:如果文章标题长度足够:一般为15个字以上,且不包含黑名单词语(用户可自行定义不符合要求的词语,制作列表作为黑名单,例如诱导分享类的词语),那么将该文章标题作为核心内容。其二:否则,可从文章中选择核心内容,例如:将文章中第一个100字以上段落的首句作为其核心内容。

优选地,所述语义匹配程度可以采用任意一种主流的计算文本相似度的算法计算得到,例如tf-idf方法、bm25方法等。

优选地,依次在每个段落中选择关键句时,需要综合考虑段落本身的和核心内容的语义匹配度以及段落中句子和核心内容的语义匹配程度,如果段落本身和核心内容的匹配程度排在第一,那么该段的整个段落都可以作为关键句标出;如果段落本身和核心内容的匹配程度并不排在最前,那么选取段落中和核心内容匹配程度排在最前的句子作为关键句。

优选地,依次选取文章中的关键句时,当选出的关键句子总数大于文章的句子总数的一定比例时,可以认定关键句子标注完成,不再标注更多关键句。

优选地,标注采用下划线、加粗、高亮显示等方式。

此外,为实现上述目的,本发明还提出一种移动端应用的文章展示方式,所述移动终端包括:存储器、处理器、屏幕及存储在所述存储器上并可在所述屏幕上展现的包含了标注出来的关键句的文章,所述的关键句标注的执行结果可以以多种样式(如下划线、加粗、高亮显示)以划重点的方式在移动终端展示。

本发明提出的文章关键句自动标注方法,自动为一篇文章“划重点”,也就是标记关键内容,帮助用户阅读文章时迅速浏览,快速识别、消化文章的重点内容,加快信息消费的速度,提高阅读类软件的用户体验。

附图说明

图1为本发明对互联网文章进行内容分段的实例

图2为本发明移动端展示关键句标注结果

具体实施方式

本发明提出方法的主要步骤包括:1.段落拆分;2.句子拆分;3.核心内容选定;4.段落排序;5.句子排序;6.关键句标注;7.移动端结果展示。

1:段落拆分

具体的,本发明方法处理的文章为互联网可公开访问的网站上的资讯、博客等文章,其文章又html(超文本标记语言)进行排版。本方法根据其html具体内容对文章进行段落拆分。段落拆分的主要依据为html中的p标签以及br标签。对于一段符合html规范的内容,本方法讲其中每一个p标签包裹的内容看作一个独立的段落。同时,对拆分得到的段落进一步查看其中有没有br标签,如果一个段落中包含br标签,那么将br标签看作分段符号再次拆分段落。

2:句子分析

具体的,将段落拆分为句子主要参考其中的标点符号。对于中文文章,中文句号、感叹号、问好作为拆分依据。对与英文文章,可以将英文句点加上一个空格作为句子拆分的依据。

3:核心内容选定

具体的,一般选择文章标题作为文章的核心内容。当标题内容不符合标准时(可能包括以下情况:长度较短、或者其中包括一些可能是标题党的词汇,如竟然、震惊等),选择文章正文中首段的第一句作为核心内容。

4:段落排序

具体的,对于文章中的每个段落,可以按照段落和核心内容的语义相似度对段落进行排序。令核心内容为s,第i段为,则该段落和核心内容的语义相似度可以表示为代表一个函数,输入为任意两个短文本,输出为一个实数值,代表两端文本的语义相似度。实际实施时,可以利用任何能够衡量文本相似度的函数作为函数,如编辑距离,词频相似度,tf-idf相似度,词向量相似度等。相似度越大的段落排名越靠前。

5:句子排序

具体的,对与排序完成的段落,从排名第一的段落开始,对段落中的每一句话再次进行相似性排序,排序标准同样根据段落中的每一句和核心内容s的语义相似度函数。注意这里的函数的实现可以选取和第四部段落排序中相同的实现方式,也可以选取不同的实现方式。

6:关键句标注

对段落中的句子完成排序后,在每段话中选取排名靠前的句子作为一个关键句标出。选取时需要同时参考句子的其他特征,如句子长度等。例如,如果句子长度过短,那么选择排名紧随其后的句子进行标注,以此类推。标注过程中记录已经标注的句子总个数,如果已经超过了一定阈值,则停止标注。这里的阈值时为了防止标注过多的关键句,例如,可以设定最多标注的关键句个数不超过文章总句子数目的1/3。

7:移动端结果展示

完成对文章关键句的自动标注后,在移动端的文章阅读界面可以一定的突出格式对得到的关键句进行突出展示。所述突出格式可以是将标记的关键句进行字体倾斜、加粗,舔加下划线、改变字体颜色、改变遍字体背景颜色等,同时也可以根据关键句和核心内容在语义相似度上的不同给予不同的展现形式。对文章中标记得到的关键句改变样式后即可展现给用户。

实施例一

本发明提出方法的主要步骤包括:1.段落拆分;2.句子拆分;3.核心内容选定;4.段落排序;5.句子排序;6.关键句标注;7.移动端结果展示。下面以一篇互联晚上的新闻文章为例,说明本发明的实施方式。

1:段落分析

图1左边方框中的内容是一篇来源于互联网的新闻文章,其中包含了html标签,其中每个p标签包裹的内容都是一个段落,根据该规则,可以讲该html文章分成图1右边所示的3个段落。

2:句子分析

对上一步中产生的三个段落,对每个段落进行句子拆分。句子主要参考其中的标点符号。对于上述中文文章,可以利用中文句号进行句子拆分。图1中的1、2两段都只有一个句话,各包含一句话,而第三段包含了三句话。

3:核心内容选定

图1中的文章所在的网页标题为“华为和3dmark母公司官方发联合声明:正式回应跑分事件”,该句子长度较为合适,且不包含可能有标题党嫌疑的用词,因此将该标题作为这篇文章的核心内容。

4:段落排序

对于图1中文章的三个段落,按照每个段落和核心内容“华为和3dmark母公司官方发联合声明:正式回应跑分事件”的语义相似度对其进行排序。令核心内容为s,上图中的三段话分别为段为,实际实施时,我们利用tf-idf相似度作为衡量语义相似度的函数,分别计算s和的语义相似度,也就是。通过计算tf-idf相似度发现,>>,因此最终段落排序为

5:句子排序

对与上述每个排序完成的段落,我们对段落中的每一句话再次进行相似性排序。这里同样选择tf-idf作为函数。首先对与段落,其中包括三句话分别为(华为向ul……体验诉求)、(ul理解……有异议)、(ul规则……跑分模式),通过这三句话和核心内容计算tf-idf相似度,发现>>,因此排序为。段落分别只包含一句话,因此无需排序。

6:关键句标注

对段落中的句子完成排序后,在每段话中选取排名靠前的句子作为一个关键句标出。并且选择时依次从排序最高的段落开始选择。因为段落排序为,首先看段落中排序最靠前的话为,因此选择进行标注。接下来从段落中进行选择,因为只有一句话,因此可以直接选择该句即可。对同样选择仅有的一句话。至此已经选择了三句话进行标注,占到总句子个数的一半以上,可以停止标注,接受该结果。

7:移动端结果展示

根据上文中的标注结果,可以在移动端展示该标注结果。图2展示了移动端的一种展示方式,其中我们将原文内容排版后,将标注出的关键句以下划线的形式展现在屏幕上。这里还有其他更多的方式可以展现关键句,比如改变字体、字体颜色、背景色等。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种钣金零件的坯料展开仿真方...
  • 一种闪存系统的磨损均衡方法及...
  • 一种基于大数据的智慧分析方法...
  • 确定焊缝疲劳等级的方法及系统...
  • 一种零件的修复方法、修复装置...
  • 风扇组件的造型方法与流程
  • 阻尼驱动系统中的扭转振荡的制...
  • 产品评价结果显示系统的制作方...
  • 智能安全主控的制作方法
  • 会话服务器的制作方法
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

深圳SEO优化公司鞍山SEO按天计费价格钦州外贸网站制作推荐芜湖建网站价格三亚网站优化软件价格合肥seo排名公司茂名外贸网站设计价格鹰潭SEO按效果付费公司泰安百度关键词包年推广公司许昌营销网站多少钱连云港网站改版郑州百度网站优化多少钱株洲SEO按效果付费价格本溪建网站南联网站seo优化推荐烟台网站建设报价泰安网站改版哪家好玉树优秀网站设计价格普洱网站改版公司垦利网站推广方案泸州百姓网标王哪家好宁德网站优化按天扣费推荐汕尾SEO按天收费清远SEO按效果付费哪家好绵阳网站关键词优化哪家好昌吉百度seo永湖网站搜索优化哪家好海口营销型网站建设多少钱晋中网站制作双龙关键词排名包年推广公司十堰SEO按天扣费多少钱歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化