一种旅游热点事件检测方法及系统与流程

文档序号:11407287阅读:232来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种旅游热点事件检测方法及系统与流程

本发明涉及数据检测技术领域,尤其涉及一种旅游热点事件检测方法及系统。



背景技术:

当前国内经济形势呈上升趋势,旅游业也随之蓬勃发展,旅游行业信息成为炙手可热的商业数据。对旅游行业信息进行数据挖掘,可以为旅游从业者提供策略咨询,可以为旅游监管部门提供宏观分析,还可以对整个旅游行业做前景预测,具有非常大的市场意义。

当前旅游业发展出现游客量随旅游热点事件井喷式爆发的趋势,挖掘旅游热点事件成为热门的研究课题。目前,现有的旅游热点事件检测大多数采用对网络文本数据进行文本聚类的方法,从聚类结果中提取出热点信息。然而,大多数的热点提取过程,并没有采用专业的旅游专业知识为指导,使得最终的热点聚类结果不够准确。



技术实现要素:

有鉴于此,本发明要解决的技术问题是提供一种旅游热点事件检测方法及系统,能够使得最终的热点聚类结果更加准确。

本发明的技术方案是这样实现的:

第一方面,本发明实施例提供了一种旅游热点事件检测方法,包括:预先设置旅游专业知识库,还包括以下步骤:

步骤1:获取网络文本数据;

步骤2:根据所述网络文本数据聚类热点词汇;

步骤3:匹配所述热点词汇和所述旅游专业知识库,计算相似度;

步骤4:根据所述相似度设置热点词汇的权重,重新聚类,获取旅游热点事件。

优选的,在所述步骤2之前,还包括:

清洗所述网络文本数据。

优选的,在所述清洗所述网络文本数据之后,还包括:

将所述网络文本数据进行分词,生成词向量,并将所述词向量转换为数值向量。

优选的,所述根据所述网络文本数据聚类热点词汇包括:

根据划分聚类算法,将所述数值向量聚类出热点词汇。

优选的,所述相似度计算方法为:

其中,same(a,b)表示集合a和b之间的共有元素数量,sum(a,b)表示集合a和b非重复元素总和。

第二方面,本发明实施例提供了一种旅游热点事件检测系统,包括:

设置模块,用于预先设置旅游专业知识库;

获取模块,用于获取网络文本数据并发送至聚类模块;

所述聚类模块,用于根据所述网络文本数据聚类热点词汇;

计算模块,用于匹配所述热点词汇和所述旅游专业知识库,计算相似度;

预测模块,用于根据所述相似度设置热点词汇的权重,重新聚类,获取旅游热点事件。

优选的,还包括清洗模块,

所述清洗模块,用于清洗所述网络文本数据。

优选的,还包括分词模块

所述分词模块,用于将所述网络文本数据进行分词,生成词向量,并将所述词向量转换为数值向量。

优选的,所述聚类模块包括聚类单元;

所述聚类单元,用于根据划分聚类算法,将所述数值向量聚类出热点词汇。

优选的,所述预测模块包括预测单元;

所述计算单元用于计算相似度,所述相似度计算如下:

其中,same(a,b)表示集合a和b之间的共有元素数量,sum(a,b)表示集合a和b非重复元素总和。

本发明提出的旅游热点事件检测方法及系统,通过在聚类热点词汇之后,根据旅游专业知识库计算热点词汇相似度并分配权重,使得旅游热点词汇能够在聚类过程中,占有更高的聚类权重,从而明确了旅游热点聚类的需求方向,保证了聚类分析结果的准确性。

附图说明

图1为本发明实施例提出的旅游热点事件检测方法的流程图;

图2为本发明另一实施例提出的旅游热点事件检测方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明实施例提出了一种旅游热点事件检测方法,包括以下步骤:

步骤101:预先设置旅游专业知识;

步骤102:获取网络文本数据;

步骤103:根据所述网络文本数据聚类热点词汇;

步骤104:匹配所述热点词汇和所述旅游专业知识库,计算相似度;

步骤105:根据所述相似度设置热点词汇的权重,重新聚类,获取旅游热点事件。

可见,本发明实施例提出的旅游热点事件检测方法,通过在聚类热点词汇之后,根据旅游专业知识库计算热点词汇相似度并分配权重,使得旅游热点词汇能够在聚类过程中,占有更高的聚类权重,从而明确了旅游热点聚类的需求方向,保证了聚类分析结果的准确性。

在本发明的一个优选实施例中,由于无用字符会对聚类结果产生噪声影响,提升聚类的维度,占用系统内存,降低算法效率,因此可以在聚类文本之前,清洗所述网络文本数据。

其中,清洗所述网络文本数据包括将emoji、网络标号、标点、连词、介词、特殊字符等从文本中去除。

在本发明的一个优选实施例中,在所述清洗所述网络文本数据之后,还包括:

将所述网络文本数据进行分词,生成词向量,并将所述词向量转换为数值向量。

在本发明的一个优选实施例中,根据所述网络文本数据聚类热点词汇包括:

根据划分聚类算法,将所述数值向量聚类出热点词汇。

在本发明的一个优选实施例中,相似度计算方法为:

其中,same(a,b)表示集合a和b之间的共有元素数量,sum(a,b)表示集合a和b非重复元素总和。

本发明实施例提出了一种旅游热点事件检测方法,如图2所示,包括以下步骤:

步骤201:预先设置旅游专业知识。

步骤202:获取网络文本数据。

其中,可以采用网络爬虫工具从各大网络新闻平台、社交平台等爬取海量的旅游热点新闻数据。

步骤203:清洗所述网络文本数据。

由于无用字符会对聚类结果产生噪声影响,提升聚类的维度,占用系统内存,降低算法效率,因此可以在聚类文本之前,清洗所述网络文本数据。

其中,清洗所述网络文本数据包括将emoji、网络标号、标点、连词、介词、特殊字符等从文本中去除。

步骤204:将所述网络文本数据进行分词,生成词向量,并将所述词向量转换为数值向量。

其中,将词向量转换为数值向量可以采用tf-idf算法。tf-idf的主要思想是:如果某个词或短语在一篇文章中出现的频率tf高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力。tf-idf实际上是:tf*idf,tf词频(termfrequency),idf逆向文件频率(inversedocumentfrequency)。tf表示词条在文档d中出现的频率。idf的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t具有很好的类别区分能力。tf和idf的计算方法如下:

其中,nij代表词ti在文档dj中的出现的次数,分母则是所有词在文档dx中出现的次数之和。而

其中,|d|指语料库中出现的文件总数,而|{j:ti∈dj}|指包含词ti的文件数目,为保证分母不为零,一般使用1+|{j:ti∈dj}|。最后,计算

tf-idfij=tfij×idfi

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的tf-idf。因此,tf-idf倾向于过滤掉常见的词语,保留重要的词语。

步骤205:根据所述网络文本数据聚类热点词汇。

其中,本实施例中可以采用k-means聚类算法,k-means均值算法是一种典型的划分聚类算法,即将所有样本划分到距离最近的均值中心点。算法先设初始聚类个数k和k个中心点,将所有样本划分到距离最近的中心点所在的簇,然后更新中心点,中心点即所有簇内样本的总和均值。重复上述过程,直到中心点不再变化,即表示聚类结束。其中,距离一般采用欧式距离计算:

其中,dij表示n维向量xi和n维向量yi之间的欧氏距离。

聚类算法的结果需要进行分析,主要是评价聚类性能和聚类结果的意义。现有的聚类算法的评价标准有很多种,本专利使用簇内距离和轮廓系数评价聚类性能。簇内距离即统计聚类结果所有簇包含的样本到该簇中心的距离总和,计算公式如下:

其中,dj(xj-mi)表示第i类内的第j个样本xj,到均值中心mi的欧式距离dj。当簇内距离总和s越小,表示聚类各簇越紧凑,聚类效果越强。轮廓系数在簇内距离的基础上还考虑了簇间关系,计算步骤如下:

其中,a(i)表示第i个样本xi到他所在簇的其他样本xj距离总和的均值。再计算:

其中,b(i)表示第i个样本xi到他最近的非所在簇,所包含所有样本yj距离总和的均值。那么,第i个样本的轮廓系数即:

显然,s(i)值在区间[-1,1],该值越趋近于1,表示聚类效果越好,聚类簇间距离更远,簇内更加紧凑。通过多次调整k值,计算簇内距离和轮廓系数,即可以找到最佳的k值点,该点即最佳的聚类效果点。通过分析最佳效果点的聚类结果,可以统计出每个簇的热点词汇,这些热点词汇即该块模块最终的输出结果。

步骤206:匹配所述热点词汇和所述旅游专业知识库,计算相似度。

聚类出来的热点词汇组,即可以和旅游专业知识库相匹配。旅游专业知识库中,包含了大量旅游信息和客流量之间的规则关系,可以通过聚类各簇的热点词汇组和旅游知识规则前件之间的相似度匹配,即可以分析出各个聚类簇热点词汇组的权重关系。其中相似度计算如下:

same(a,b)表示集合a和b之间的共有元素数量,sum(a,b)表示集合a和b非重复元素总和。相似度越高,表示该簇热点的可信度越高。可以选取n个相似度最高的热点词汇组,设置权重w,与对应词汇的tf-idf值相乘,提高该热点词汇在样本数值向量中的重要性比重,然后重新聚类,即可以得到更加准确的热点聚类结果。

步骤207:根据所述相似度设置热点词汇的权重,重新聚类,获取旅游热点事件。

本发明实施例还提出了一种旅游热点事件检测系统,包括:

设置模块,用于预先设置旅游专业知识库;

获取模块,用于获取网络文本数据并发送至聚类模块;

所述聚类模块,用于根据所述网络文本数据聚类热点词汇;

计算模块,用于匹配所述热点词汇和所述旅游专业知识库,计算相似度;

预测模块,用于根据所述相似度设置热点词汇的权重,重新聚类,获取旅游热点事件。

在本发明的一个优选实施例中,旅游热点事件检测系统还包括清洗模块,

所述清洗模块,用于清洗所述网络文本数据。

在本发明的一个优选实施例中,旅游热点事件检测系统还包括分词模块;

所述分词模块,用于将所述网络文本数据进行分词,生成词向量,并将所述词向量转换为数值向量。

在本发明的一个优选实施例中,所述聚类模块包括聚类单元;

所述聚类单元,用于根据划分聚类算法,将所述数值向量聚类出热点词汇。

在本发明的一个优选实施例中,所述预测模块包括预测单元;

所述计算单元用于计算相似度,所述相似度计算如下:

其中,same(a,b)表示集合a和b之间的共有元素数量,sum(a,b)表示集合a和b非重复元素总和。

本发明针对旅游热点聚类这一课题,在以往传统的文本聚类基础上加入了旅游知识库的规则权重,对于最终聚类热点的分析,具有重要的指导意义。传统的文本聚类方法往往存在聚类性能过拟合的问题,分析结果往往比实际需求更加细化,需要人工介入重新整合。而加入了旅游知识库的规则权重,使得旅游热点信息能够在聚类过程中,占有更高的聚类权重,从而明确了旅游热点聚类的需求方向,保证了聚类分析结果的准确性。

本发明通过对北京、巴西奥运会旅游数据的热点聚类,准确的找出了奥运期间游客关心的旅游热点验证了本发明对旅游业营销策略的实际指导意义,也有利于政府监管部门的宏观调控和市场前景预测。

综上所述,本发明实施例至少可以实现如下效果:

在本发明实施例中,通过在聚类热点词汇之后,根据旅游专业知识库计算热点词汇相似度并分配权重,使得旅游热点词汇能够在聚类过程中,占有更高的聚类权重,从而明确了旅游热点聚类的需求方向,保证了聚类分析结果的准确性。

在本发明实施例中,通过清洗所述网络文本数据,从而可以降低聚类的维度,较少占用系统的内存,提高算法效率。

在本发明实施例中,通过将所述网络文本数据进行分词,生成词向量,并将所述词向量转换为数值向量,可以提高聚类的效率。

最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种基于MES系统的石墨舟使...
  • 一种查询方法及装置与流程
  • 一种数据库审计方法及装置与流...
  • 一种中文事件抽取方法与流程
  • 地名地址库数据融合集成的系统...
  • 搜索结果推荐方法、设备、搜索...
  • 一种基于图模型的关键词提取方...
  • 一种海量电话号码快速匹配检索...
  • 一种基于离散多视图哈希的协同...
  • 一种缓存更新方法及装置与流程
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

深圳SEO优化公司亳州网站优化哪家价格实惠网站数据分析搜索引擎优化张店淘宝网站优化钦州网站优化电话西城网站优化服务为什么我的网站不能优化首页付费优化排名网站怎么看网站是否优化地图网站优化操作方法杨浦区官方网站优化平台福建网站长尾关键词优化莱芜网站优化定制紫云网站优化公司淄博沂源电子商务网站优化辽宁专业的网站品牌优化惠州网站优化运营光山网站关键词优化工具中山排名优化网站什么人需要网站优化酒泉网站优化推广哪家公司好网站优化常用的工具网站改成静态会影响优化吗优化网站备案有什么用成都商城网站建设优化网站产品优化询问y火18星来晋安区企业网站优化网站功能优化湖州网站seo优化方案东莞网站排名优化费用沈阳服务行业网站优化方案歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化