本发明涉及自然事件处理领域,尤其涉及一种用于中文新闻突发事件的文本分类与抽取方法。
背景技术:
近年来,网络新闻快速发展,相比于传统媒体新闻,网络新闻更加快速、灵活且便捷,网络新闻也日渐成为人们获取新闻资讯的一种最普遍方式。利用文本分类技术自动地对大量新闻进行快速的分类,以及在保证原始新闻主要内容的前提下,如何有效的抽取新闻中的事件,是当前研究的主要困难。新闻文本分类以及事件提取在信息提取领域一直是极具挑战性的问题,涉及自然语言处理、数据挖掘、机器学习等多个学科的技术和方法,在自动摘要、信息检索等领域有着广泛的需求和应用前景。首先,利用向量空间模型,对新闻标题以及内容进行向量量化表示,构建特征矩阵,利用基于余弦相似度和机器学习分类器对新闻进行分类。进一步,利用事件抽取算法对已经分类好的数据集进行事件提取。
现有的技术文献中,发明专利“一种基于文体和词表的突发事件信息抽取方法及系统”,公开号为201711343022.8,采用词表进行事件分类,采用文体特征进行时间、事件摘要的抽取。这种基于触发词和事件元素的匹配方法依赖于具体领域及文本格式,且基于触发词的事件抽取方法会引入大量的反例,造成正反例失衡且在语料库规模较小时存在一定的数据稀疏。
技术实现要素:
本发明的目的在于提供一种用于中文新闻突发事件的文本分类与抽取方法,在对新闻文本进行分类的基础上,利用基于事件实例驱动的事件抽取方法,对新闻进行事件抽取,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种用于中文新闻突发事件的文本分类与抽取方法,主要包括以下步骤:
s1,利用爬虫获取多个新闻网站内容作为初始新闻数据集,记为新闻数据集s={s1,s2,...,sn},其中,si为新闻数据集中第i个新闻文本,i=1,2,...,n,n为新闻数据集新闻文本总数;
s2,对步骤s1中得到的新闻数据集s进行分类,得到分类好的新闻数据集
s3,对已经分类好的新闻数据集
优选地,步骤s2主要包括以下步骤:
s21,提取新闻数据集s中的第一个新闻文本s1的标题和正文,得到新闻文本s′1={t1,c1},其中t1为新闻文本s1的标题,c1为新闻文本s1的标题;
s22,遍历新闻数据集s中的所有新闻文本,重复步骤s21,得到新闻数据集s′,
s23,提取所述新闻数据集s′中的新闻文本s′1的特征向量,得到新闻数据集特征矩阵
s24,使用支持向量机分类器对步骤s23得到的新闻数据集特征矩阵
优选地,步骤s23主要包括以下步骤:
s231,提取新闻数据集s′中的新闻文本s′1中标题t1的tf-idf特征,得到特征向量a1,
s232,从上述特征向量a1中的选取2个最大特征值,记为a′1=[a′1,a′2]t,将2个最大特征值对应的词汇记为
s233,提取新闻数据集s′中的新闻文本s′1中正文c1的词频(tf-idf)特征,得到特征向量b1,
s234,从上述特征向量b1中的选取28个最大特征值,记为b′1=[b′1,b′2,...,b′28]-1,将28个最大特征值对应的词汇记为
s235,将步骤s232中得到特征向量a1和步骤(2-3-4)中得到的特征向量b1拼接成为权值矩阵ω1:
s236,对步骤s235中得到的词汇表v1进行特征提取,得到新闻文本s'′特征矩阵f30×m:f=[f1,f2,...,f30]t,其中fi为词汇表v1中第i个词的特征向量,m为特征向量维数,m取值为200;
s237,根据步骤s235得到的权值矩阵ω1和步骤s236得到的特征矩阵f30×m,按照如下公式得到新闻文本s′1特征向量f′:
其中,ω1i*fi为权值矩阵ω1第i行和特征矩阵f第i行哈达马积;
s238,对上述步骤得到的特征向量f′进行归一化,得到归一化后的特征向量
s239,遍历新闻数据集s′中的每一个新闻文本,重复上述步骤s231~s237,得到新闻数据集特征矩阵
优选地,步骤s236采用word2vec模型进行特征提取。
优选地,步骤s3主要包括以下步骤:
s31,从分类好的新闻数据集
s32,利用支持向量机分类器对上述步骤s31得到的候选事件集合
s33,对上述步骤得到的事件实例集合q进行初始聚类,得到k个聚类c={c1,c2,...,ck},k为聚类的类别数;
s34,从上述步骤得到的聚类ci(1≤i≤k)中任意选取一个事件实例作为初始聚类中心,得到k个聚类中心{o1,o2,...,ok};
s35,使用上述步骤得到的k个聚类中心{o1,o2,...,ok}作为k-medoids算法(k-中心点聚类算法)的聚类中心,通过聚类得到k个聚类{c′1,c′2,...,c′k},其中c′i(1≤i≤k)代表了新闻数据集
s36,遍历新闻数据集
优选地,步骤s33中利用层次聚类算法进行初始聚类。
本发明的有益效果是:
本发明提出的一种用于中文新闻突发事件的文本分类与抽取方法,对新闻突发事件进行分类,并进一步完成事件抽取;采用了基于对标题和内容信息的联合表征,并将词性对文本分类的贡献度融入到传统的tf-idf算法中,并作为word2vec词向量的权重进一步生成短文本向量,避免了因单一利用标题或内容引起的信息缺失和文本词汇词性重要性不同而导致的分类准确率降低的问题。采用了基于事件实例驱动的新闻突发事件的抽取方法,实现了事件抽取,方便新闻工作人员、舆情分析人员进一步利用事件抽取结果快速分析新闻。
附图说明
图1是中文新闻突发事件的文本分类算法流程图;
图2是新闻事件抽取算法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
实施例
本实施例以新闻网站内容为例,提供一种文本分类和事件抽取方法,具体步骤如下:
s1,利用爬虫获取多个新闻网站内容作为初始新闻数据集,记为新闻数据集s={s1,s2,...,sn},其中,si为新闻数据集中第i个新闻文本,i=1,2,...,n,n为新闻数据集新闻文本总数;
s2,对步骤s1中得到的新闻数据集s进行分类,得到分类好的新闻数据集
s21,提取新闻数据集s中的第一个新闻文本s1的标题和正文,得到新闻文本s′1={t1,c1},其中t1为新闻文本s1的标题,c1为新闻文本s1的标题;
s22,遍历新闻数据集s中的所有新闻文本,重复步骤s21,得到新闻数据集s′,
s23,提取所述新闻数据集s′中的新闻文本s′1的特征向量,得到新闻数据集特征矩阵
s231,提取新闻数据集s′中的新闻文本s′1中标题t1的tf-idf特征,得到特征向量a1,
s232,从上述特征向量a1中的选取2个最大特征值,记为a′1=[a′1,a′2]t,将2个最大特征值对应的词汇记为
s233,提取新闻数据集s′中的新闻文本s′1中正文c1的tf-idf特征,得到特征向量b1,
s234,从上述特征向量b1中的选取28个最大特征值,记为b′1=[b′1,b′2,...,b′28]-1,将28个最大特征值对应的词汇记为
s235,将步骤s232中得到特征向量a1和步骤(2-3-4)中得到的特征向量b1拼接成为权值矩阵ω1:
s236,采用word2vec模型对步骤s235中得到的词汇表v1进行特征提取,得到新闻文本s′1特征矩阵f30×m:f=[f1,f2,...,f30]t,其中fi为词汇表v1中第i个词的特征向量,m为特征向量维数,m取值为200;
s237,根据步骤s235得到的权值矩阵ω1和步骤s236得到的特征矩阵f30×m,按照如下公式得到新闻文本s′1特征向量f′:
其中,ω1i*fi为权值矩阵ω1第i行和特征矩阵f第i行哈达马积;
s238,对上述步骤得到的特征向量f′进行归一化,得到归一化后的特征向量
s239,遍历新闻数据集s′中的每一个新闻文本,重复上述步骤s231~s237,得到新闻数据集特征矩阵
s24,使用支持向量机分类器对步骤s23得到的新闻数据集特征矩阵
s3,对已经分类好的新闻数据集
s31,从分类好的新闻数据集
s32,利用支持向量机分类器对上述步骤s31得到的候选事件集合
s33,利用层次聚类算法对上述步骤得到的事件实例集合q进行初始聚类,得到k个聚类c={c1,c2,...,ck},k为聚类的类别数;
s34,从上述步骤得到的聚类ci(1≤i≤k)中任意选取一个事件实例作为初始聚类中心,得到k个聚类中心{o1,o2,...,ok};
s35,使用上述步骤得到的k个聚类中心{o1,o2,...,ok}作为k-medoids算法的聚类中心,通过聚类得到k个聚类{c′1,c′2,...,c′k},其中c′i(1≤i≤k)代表了新闻数据集
s36,遍历新闻数据集
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本实施例提供的一种用于中文新闻突发事件的文本分类与抽取方法采用了基于对标题和内容信息的联合表征,并将词性对文本分类的贡献度融入到传统的tf-idf算法中,并作为word2vec词向量的权重进一步生成短文本向量,避免了因单一利用标题或内容引起的信息缺失和文本词汇词性重要性不同而导致的分类准确率降低的问题。采用了基于事件实例驱动的新闻突发事件的抽取方法,实现了事件抽取,方便新闻工作人员、舆情分析人员进一步利用事件抽取结果快速分析新闻。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
深圳SEO优化公司哈尔滨百度网站优化案例吴江外贸型网站优化方案好的网站推广与优化咨询热线绵阳网站优化代理批发网站 内容优化专业seo网站优化许昌百度网站优化报价单均安网站优化托管沈阳网站优化技术聊城山东网站关键词优化枣庄泰安网站优化推广哪家好中山外贸网站优化怎么操作海联信息网站优化河北什么是网站优化质量保障南雄百度网站优化软件白云网站排名推广优化平台萧山优化网站哪家好安全的网站优化推广天津网站优化排名公司企业网站优化越来越难电子网站优化怎么推漳州优化网站肥东网站排名优化找哪家财经门户网站怎么优化湖南教育网站优化普陀区谷歌网站优化方案定制家居网站优化推广网站优化要做什么网站的优化仔细云速捷省力自动网站优化哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运